快手可靈大模型推出圖生視頻功能
2024年過半,圍繞視頻和圖片內容,快手大模型應用落地加速。
6月21日,在計算機視覺領域盛會CVPR2024上,快手可靈大模型正式推出圖生視頻功能,支持將任意靜態圖像轉化為5秒動態視頻,其間可以搭配創作者輸入的文本,生成多種運動效果。
此次可靈大模型還同步發布了視頻續寫功能,支持對已生成的視頻一鍵續寫和連續多次續寫,單次可讓視頻延續約5秒,最長可生成約3分鐘視頻。
這意味著,可靈大模型可以通過多次續寫的功能,在AI視頻生成的時長上超越Sora。
快手可靈視頻生成大模型于6月6日發布,可支持生成最高達120s的視頻,對標Sora。
如今國內的AI競賽,已經從去年卷數據、算力和算法,爭相發布基礎大模型的狀態,演變成了驗證大模型應用落地能力的比拼。
而掀起這一浪潮的節點性事件,仍舊源于Open AI。其于2月16日發布了文生視頻模型Sora,并首次由AI生成了長達1分鐘的多鏡頭長視頻,展現出了對于真實世界的高度模擬和細節還原,被視作科技行業的革命。
隨后,國內各大廠商也競相追趕。快手作為國內頭部的內容平臺自然也不會落下。
在今年Q1的財報電話會上,快手CEO程一笑表示,今年一季度,快手會穩步推進自研大模型各項性能的迭代提升,并且加快大模型在各業務場景的應用。更早之前,快手還發布了文生圖和圖生圖大模型產品“可圖”。
可靈大模型演示使用圖片
快手以外,字節跳動從去年開始就已經成立了Flow部門,致力于大模型應用的研發,但至今尚未有成熟產品落地。
此前,曾有傳聞表示,字節跳動在Sora引爆文生視頻領域之前,已經在研發對標Sora的名為Boximator的創新性視頻模型。隨后字節跳動辟謠表示,Boximator是視頻生成領域控制對象運動的技術方法研究項目,還無法作為完善的產品落地,距離國外領先的視頻生成模型在畫面質量、保真率、視頻時長等方面還有很大差距。
今年4月和3月,國內AI賽道中的學院派選手還分別推出了視頻生成AI模型“Vidu”和“Follow-Your-Click”,但生成視頻的時長在10s-20s的區間,且畫面質量也相對較低,與Sora仍存在較大差距。
在AI視頻生成的競爭中,時長和畫面質量已經成為了國內廠商爭相突破的兩個重要維度。如今,快手快了一步。
發表評論
登錄 | 注冊