![]()
智東西
作者 李水青
編輯 心緣
智東西12月16日?qǐng)?bào)道,今日,阿里推出新一代萬(wàn)相2.6系列模型。該系列模型支持音畫同步、多鏡頭生成及聲音驅(qū)動(dòng)等多項(xiàng)功能,號(hào)稱是全球功能最全的視頻生成模型,并且是國(guó)內(nèi)首個(gè)支持角色扮演功能的視頻模型。
相比于9月發(fā)布的萬(wàn)相2.5,萬(wàn)相2.6本次升級(jí)面向?qū)I(yè)影視和圖像創(chuàng)作,進(jìn)一步提升了畫質(zhì)、音效、指令遵循等能力,單次視頻時(shí)長(zhǎng)實(shí)現(xiàn)國(guó)內(nèi)最高的15s,還新增了角色扮演和分鏡控制功能。
智東西第一時(shí)間試用了萬(wàn)相2.6,發(fā)現(xiàn)穩(wěn)定的音畫同步生成在這一版本中已經(jīng)是標(biāo)配,指令遵循能力提升;全新的分鏡控制功能表現(xiàn)驚艷,能夠理解腳本分鏡術(shù)語(yǔ),多鏡頭間的主體、場(chǎng)景一致性較強(qiáng),剪輯效果連貫,多人互動(dòng)仍略有機(jī)械感,但比此前更接近真人;角色扮演功能也能實(shí)現(xiàn)貼合原角色特征,但多人場(chǎng)景可能出現(xiàn)角色替換錯(cuò)配問(wèn)題。
即日起,所有人可直接在萬(wàn)相官網(wǎng)體驗(yàn)萬(wàn)相2.6,企業(yè)用戶還能通過(guò)阿里云百煉調(diào)用模型API,據(jù)悉,千問(wèn)APP也將于近期上線該模型。
體驗(yàn)鏈接:
萬(wàn)相官網(wǎng):https://tongyi.aliyun.com/wan/
阿里云百煉API:https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan
一、上傳多鏡頭腳本,AI直接生成15秒劇情短片
如下視頻所示,當(dāng)我上傳一張我的數(shù)字人分身的照片,輸入一段分鏡腳本提示詞,萬(wàn)相2.6在幾分鐘之內(nèi)一次就成功生成了我需要的帶音畫同步的視頻,與提示詞精準(zhǔn)匹配,分鏡銜接具有大片感,并且生成的人物保持了較好一致性,沒(méi)有出現(xiàn)明顯“穿幫”鏡頭。
提示詞:
愛(ài)豆的臺(tái)前與幕后。
鏡頭1 [0-2秒] 女孩在臺(tái)上唱歌,星光璀璨。
鏡頭2 [3-6秒] 周圍的燈光驟暗,女生在化妝鏡前卸妝。
鏡頭3 [7-10秒] 遠(yuǎn)景,女生穿著機(jī)車服,騎著摩托車呼嘯而過(guò)。
▲萬(wàn)相2.6生成的視頻(源自:智東西)
當(dāng)我加大難度,上傳了一個(gè)男生和女生走在操場(chǎng)上的照片,并輸入圍繞“男生向女生表白”主題的相關(guān)分鏡提示詞,如下視頻所示,萬(wàn)相2.6也能夠在幾分鐘之內(nèi)生成準(zhǔn)確呈現(xiàn)劇情的15秒視頻,人物的動(dòng)作、嘴型和聲音比較一致,人物的情緒飽滿,不過(guò)相比于上一個(gè)單人視頻略顯AI味,不如真人表演具有靈動(dòng)感,但已經(jīng)好過(guò)之前的AI生成效果。
提示詞:
校園操場(chǎng),男生真誠(chéng)跪地表白,氛圍溫暖感人。
鏡頭1 [0-5秒]?中景:男生叫住女生,緊張遞花,女生疑惑。
鏡頭2 [6-10秒]?遠(yuǎn)景:男女生對(duì)視,認(rèn)真告白,女生驚訝捂嘴。
鏡頭3 [10-15秒]?特寫,女生點(diǎn)頭接受,對(duì)男生笑。
▲萬(wàn)相2.6生成的視頻(源自:智東西)
下面是一段通義萬(wàn)相官方公布的分鏡控制功能示例,更加專業(yè)的操作人員配合萬(wàn)相2.6試用,有望生成大片感更足的多分鏡視頻。
▲萬(wàn)相2.6分鏡控制功能示例(圖源:通義萬(wàn)相)
二、國(guó)內(nèi)首個(gè)AI視頻角色扮演模型,實(shí)測(cè)一鍵變“女版馬斯克”
然后來(lái)看看角色扮演,萬(wàn)相2.6能參考輸入視頻中的角色外觀和音色、實(shí)現(xiàn)角色扮演,按照提示詞生成單人、多人、人與物合拍的視頻。
當(dāng)我上傳一段馬斯克采訪的相關(guān)視頻,并輸入我的數(shù)字人分身,希望讓我的分身去模仿馬斯克的受訪時(shí)的神態(tài),萬(wàn)相2.6能快速將馬斯克替換為我的“數(shù)字分身”——一個(gè)女版馬斯克,穿著大碼的夾克叉腿作者,兩手交叉一邊深度一思考一邊認(rèn)真講述自己的觀點(diǎn),神態(tài)高度還原了馬斯克,但生成視頻的聲音依然保留了男性聲音。
▲萬(wàn)相2.6生成的視頻(源自:智東西)
當(dāng)我加大難度,上傳了一個(gè)動(dòng)態(tài)效果更強(qiáng)、有多個(gè)角色的視頻:哈利?波特的好朋友赫敏?格蘭杰飛奔向他兩人擁抱,只見(jiàn)萬(wàn)相2.6也能夠捕捉到人物,準(zhǔn)確地將赫敏替換成我的數(shù)字分身,從遠(yuǎn)處飛奔過(guò)來(lái),朋友見(jiàn)面的喜悅的神態(tài)、動(dòng)作都還原地十分生動(dòng)。
▲萬(wàn)相2.6生成的視頻(源自:智東西)
美中不足是萬(wàn)相2.6捕捉和替換角色有點(diǎn)像短視頻平臺(tái)的變身特效一樣“隨意”,有一幀依然保留了原演員艾瑪?沃特森的畫面,而最后一幀將哈利·波特的臉換成了我的數(shù)字分身。理論上這是可以通過(guò)提示詞調(diào)整的,但在我使用的時(shí)候該功能無(wú)法進(jìn)行提示詞編輯。如果萬(wàn)相2.6能針對(duì)多角色視頻增加一個(gè)“角色選擇”勾選功能,這一功能的可用性或許將更高。
針對(duì)角色扮演,下面是通義萬(wàn)相官方提供的一個(gè)示例:用戶上傳一段個(gè)人視頻,并輸入一段科幻懸疑風(fēng)格的提示詞,萬(wàn)相2.6能快速完成分鏡設(shè)計(jì)、角色演繹、畫面配音等環(huán)節(jié)工作。
▲萬(wàn)相2.6角色扮演功能實(shí)例(圖源:通義萬(wàn)相)
三、支持多模態(tài)聯(lián)合建模與學(xué)習(xí),可進(jìn)行高層語(yǔ)義理解
主打“面向?qū)I(yè)影視制作”,萬(wàn)相2.6在業(yè)界十分關(guān)注的“細(xì)節(jié)穿幫”問(wèn)題上表現(xiàn)如何,做了哪些工作?
萬(wàn)相2.6相關(guān)負(fù)責(zé)人在采訪中告訴智東西,現(xiàn)在沒(méi)有任何一個(gè)模型完全做到?jīng)]有Bad Case(所謂的“穿幫”),萬(wàn)相2.6的穩(wěn)定性要比上個(gè)版本明顯加強(qiáng),當(dāng)用戶多次輸入提示詞可能得到不同的結(jié)果,其實(shí)真人演員對(duì)同一個(gè)劇本每次的表現(xiàn)也是不一樣的。它不是為了去解決“穿幫”問(wèn)題,(不過(guò))用戶可以使用多次生成來(lái)看哪一個(gè)結(jié)果更符合預(yù)期。
其在模型結(jié)構(gòu)上集成了多項(xiàng)創(chuàng)新技術(shù),可對(duì)輸入?yún)⒖家曨l進(jìn)行多模態(tài)聯(lián)合建模與學(xué)習(xí),參考具有時(shí)序信息的主體情緒、姿態(tài)和多角度全面視覺(jué)特征,同時(shí)提取音色、語(yǔ)速等聲學(xué)特征,在生成階段作為參考條件控制,實(shí)現(xiàn)從畫面到聲音的全感官全維度一致性保持與遷移,目前萬(wàn)相可支持單人和多人的表演。
在分鏡控制上,通義萬(wàn)相能通過(guò)高層語(yǔ)義理解,將原始輸入構(gòu)建為具備完整故事線與敘事張力的專業(yè)級(jí)多鏡頭段落,在多鏡頭切換的過(guò)程中保持核心主體、場(chǎng)景布局和環(huán)境氛圍統(tǒng)一建模,確保全片在內(nèi)容、節(jié)奏和氛圍上的高一致性。
結(jié)語(yǔ):國(guó)產(chǎn)視覺(jué)生成模型功能加速迭代
今年9月,阿里率先在國(guó)內(nèi)發(fā)布音畫同步的視頻生成模型萬(wàn)相2.5,在權(quán)威大模型評(píng)測(cè)集LMArena上,萬(wàn)相圖生視頻位居國(guó)內(nèi)第一。三個(gè)多月后,萬(wàn)相2.6又推出了角色替換、多鏡頭控制等功能,提升幅度明顯。
國(guó)產(chǎn)視覺(jué)生成模型正在刷新更多全球記錄。目前,萬(wàn)相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動(dòng)作生成、角色扮演及通用視頻編輯等10多種視覺(jué)創(chuàng)作能力,據(jù)稱已成為全球功能最全的視頻生成模型。





京公網(wǎng)安備 11011402013531號(hào)