青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

強大到不敢給普通人用!史詩級大模型 Sora 如何讓眾行業(yè)一夜變天?

1視頻生成模型“新王登基”,Sora 何以成為全球焦點?

2023年以來,多模態(tài)視頻生成技術取得了顯著的進展和突破,從 Runway 到 Pika 再到年末的 VideoPoet,視頻生成模型進入到加速階段。2024年2月,OpenAI 旗下視頻生成模型 Sora 正式對外發(fā)布。Sora 一名源于日文“空”(そら sora),取自天空之意,以示其無限的創(chuàng)造潛力。與 Runway、Pika、VideoPoet 等“前輩”相比,Sora 在視頻生成效果和質(zhì)量上具有明顯優(yōu)勢。也正因如此,Sora 一經(jīng)發(fā)布就在全球范圍內(nèi)掀起了討論熱潮,迅速成為當前最受關注的模型之一。

“Sora 的出現(xiàn)時間要比我們預想的要早很多,OpenAI 已經(jīng)提前帶來了驚喜”。WeShop 唯象 GM 吳海波在接受 InfoQ 采訪時提到,從技術層面來看,Sora 并沒有引入全新的理論框架,而是將現(xiàn)有技術進行了新的整合。自從 Sora 問世以來,人們對其背后的技術進行了深入分析。比如,Meta 的謝賽寧曾在 Twitter 上進行拆解,其認為 Sora 所采用的 DiT 結(jié)構(gòu),就是基于他在 ICCV2023發(fā)布的 DiT(Diffusion Transformer)思路構(gòu)建的,這也是支撐 Sora 的一個重要基礎。

在模型架構(gòu)方面,Runway、Pika 等模型底層采用的是擴散模型(Diffusion Model)技術,利用高斯噪音和 prompt,再通過 U-Net 對噪音進行解析,實現(xiàn)逐幀的渲染。雖然 prompt 通過 Transformer 技術得到了前后文的聯(lián)系,但視頻生成中卻沒有較大時間軸或前后聯(lián)系的概念,從而導致先前的視頻只能生成三四秒,畫面跳躍跳幀等問題嚴重。

而 Sora 利用 Transformer 替代 Diffusion 的 U-Net,不限制原始視頻的尺寸,不僅能通過 Transformer 技術保證前后的連貫性,還能保證生成視頻在各個畫幅比例下都有很好的表現(xiàn),從而生成時長更長、效果更好的視頻。

目前,Sora 能夠生成1分鐘的視頻,深圳市鼎盛方圓科技發(fā)展有限公司創(chuàng)始人黃鴻波表示,理論上來看,Sora 是能夠生成生成更長時間的視頻的,但其中的不確定性會更多,也會需要更高的算力?!皬牧愕揭缓芎唵?,但再想往上則需要質(zhì)的飛躍,難度比較大”。

比起生成的視頻時長,黃鴻波認為,Sora 這類視頻生成模型更應解決的是如何保持人物一致性和場景一致性。這兩點都是目前業(yè)內(nèi)比較難以克服的難題。以人物為例,一段完整的視頻中不僅存在主角,還存在配角和各種人物關系。在電影和電視劇的實際拍攝中,人是真實存在不會改變的,但 Sora 或其他目前現(xiàn)存的技術都無法保證人物的一致性。人物的每次生成,臉型、膚色、眼睛大小、痣的位置等都會發(fā)生變化。場景同樣如此,不同的鏡頭會從不同角度進行拍攝,但周圍的場景需要有一些變化?!皬哪壳暗囊曨l演示來看,Sora 已經(jīng)趨近完美,如果能解決人物一致性和場景一致性的問題,基本上就能達到影視公司想要的結(jié)果了”。

此外,Sora 對“世界模型”的實現(xiàn)方式也存在一定爭議。OpenAI 聲稱 Sora“擴展視頻生成模型是構(gòu)建物理世界通用模擬器的一條可行之路”。英偉達高級研究科學家 Jim Fan 也斷言,Sora 是一個數(shù)據(jù)驅(qū)動的物理引擎,是一個可學習的模擬器,或“世界模型”。但也有人對此提出質(zhì)疑。圖靈獎得主 Yann LeCun 認為 Sora 并不理解物理世界,甚至稱 Sora 對“世界模型”的實現(xiàn)方式注定是死路一條。

具體來說,Sora 在生成視頻時依賴于文本指令,這些文本描述了場景和意義。如果 Sora 能夠理解視頻內(nèi)容,并在給定一段視頻后,補充出更長的視頻,且前后情節(jié)邏輯一致,那么這將是一個重要的進步。這將表明 Sora 不僅僅是通過視覺理解事物,而是能夠從更深層次上理解視頻內(nèi)容。

“長期來看,如果 Sora 能夠在視頻中實現(xiàn)首尾呼應,比如在電影中常見的前后呼應的情節(jié),這表明它具有更長的因果鏈理解能力。這將是一個重要的里程碑,表明 Sora 越來越像是一個世界模型,能夠理解物理定律和社會規(guī)則?!眳呛2ㄌ岬?,目前,Sora 還處于一個比較早期的階段,類似于早期的 GPT-3——它展現(xiàn)出了一定的能力,但尚未達到 ChatGPT 那樣的成熟度?!暗倪M步速度很快,2024年值得我們期待,屆時應該會有許多新的進展出現(xiàn)?!?/p>

2Sora 如何重塑千行百業(yè)?

當前,Sora 還未正式對外開放。在近日的一場專訪中,Sora 的核心團隊成員表示 Sora 太過強大,還不能讓普通人很快就用到,OpenAI 正在收集用戶反饋,還有很多安全工作要做。而根據(jù) OpenAI CTO Mira Murati 此前的說法,“Sora 最快在今年內(nèi)開放公測”。

作為一個基礎模型,Sora 無疑會對各行各業(yè)產(chǎn)生影響,在影視、電商、游戲行業(yè)中,Sora 一定會帶來新的想象力。其中,影視行業(yè)將會成為 Sora 的首選。

目前,影視行業(yè)的制作流程涉及多個環(huán)節(jié)。編劇完成劇本后,會尋找合適的導演合作。在好萊塢或國內(nèi)的大型制片廠,他們通常會先找普通演員拍攝樣品,需要將90分鐘的電影精華部分濃縮,拍攝成30至40分鐘的樣片,用于向投資人展示電影的內(nèi)容、故事情節(jié)、人物設定以及特效應用等。只有當投資人認可了故事的創(chuàng)新點和市場潛力后,才會決定投資。不過,這類樣片的制作成本相當高,每分鐘的制作費用在1至2萬元之間。

如果引入 Sora 這類視頻生成模型,將大幅降低制作成本,成本可能壓縮至每分鐘數(shù)千元。此外,Sora 還能免除影視制作的場景搭設、威亞特效、影視后期等工作,顯著提高制作效率。

“在與北京影視行業(yè)的合作中,我發(fā)現(xiàn)他們在拍攝電視劇和電影時,經(jīng)常遇到一些無法通過常規(guī)手段拍攝的鏡頭,如宇宙大爆炸、地月軌道等場景,這些都需要依賴3D 后期制作來完成。但這類鏡頭的制作成本極高。以電影行業(yè)常見的25幀 / 秒為例,一個2至3秒的鏡頭就包含約70幀的畫面,按照幀計費的3D 后期制作費用,這樣短暫的鏡頭也需要投入上千甚至上萬的成本?!秉S鴻波介紹道,有了 Sora 技術后,影視公司可以將那些特效制作成本高昂或無法通過演員實際拍攝的場景,通過 Sora 或類似的視頻生成模型來展現(xiàn)?!癝ora 不僅對影視行業(yè)有益,它對傳統(tǒng)廣告制作、游戲和流媒體方面也有一定的影響,一些畫面鏡頭的拍攝通過 AI 在幾分鐘內(nèi)就能完成,節(jié)省了大量的人力物力。”

在電商行業(yè)中,Sora 這類視頻生成模型也帶來了新的想象力。

傳統(tǒng)的產(chǎn)品視頻拍攝需要模特、場景布置、拍攝以及后期制作等多個環(huán)節(jié),而 Sora 只需輸入相應的文本描述或圖片,即可在短時間內(nèi)生成逼真的視頻,極大地提高了電商營銷素材制作效率。此外,商家可以利用 Sora 生成產(chǎn)品在不同場景下的視頻,或者展示產(chǎn)品在不同空間布局下的效果,從而提升消費者的購買意愿。

雖然 Sora 在視頻生成方面取得了顯著進步,但要想真正應用在電商行業(yè)中,仍面臨一些挑戰(zhàn)。“目前,用戶可以通過提交指令給 Sora,Sora 會在一段時間后生成視頻反饋給用戶。這種交互方式雖然令人興奮,但也存在局限性,因為它缺乏明確的控制和交互方式?!眳呛2ㄌ岬?,以電商為例,商家可能更希望基于某個已有商品生成視頻內(nèi)容,在將實體商品與視頻結(jié)合方面,Sora 目前還無法滿足需求。Sora 無法將商家的商品巧妙地融入視頻中,并展示商品在真實場景中的應用,讓潛在顧客直觀地了解商品。

“盡管 Sora 已經(jīng)展示了在自由發(fā)揮狀態(tài)下的創(chuàng)造力,但我們還不清楚如何將這些技術與現(xiàn)有電商平臺有效結(jié)合,如何讓它按照我們的需求生成內(nèi)容,還有待進步一的優(yōu)化。”吳海波表示,要想在電商行業(yè)中進一步拓展 Sora 技術的應用范圍,還需要不斷研究并探索新的方法,以實現(xiàn)商品與視頻的完美結(jié)合。

游戲作為較早落地 AIGC 技術的行業(yè)之一,在制作過程中也可引入 Sora 這類視頻生成模型。黃鴻波提到,目前游戲行業(yè)比較容易落地的是大場景、風格轉(zhuǎn)換和季節(jié)轉(zhuǎn)換類型。

比如,可以借助 Sora 技術,實現(xiàn)游戲中的季節(jié)轉(zhuǎn)換等場景,通過每個季節(jié)2-3秒的場景交替生成游戲內(nèi)的視頻,這樣不僅可以提升游戲的視覺體驗,還能有效減少游戲的制作開發(fā)成本。游戲內(nèi)的服裝道具也可以通過 Sora 來完成。而對于游戲人物的動作,如跑步和飛翔,傳統(tǒng)的制作方法通常涉及到底模建模、骨骼綁定以及動作合成?,F(xiàn)在這些工作也可以通過 AI 技術來完成,在最后由人工進行必要的補充和調(diào)整,以確保動作的真實性更加出色。

此外,光影和材料的仿真也是游戲制作中的重要環(huán)節(jié),這些同樣可以通過 AI 技術實現(xiàn)。例如,當角色從兩米高的地方跳下時,不同材質(zhì)的服裝(如絲綢、粗布、盔甲)會產(chǎn)生不同的漂浮效果、落地速度和聲音,這些細節(jié)在游戲和電影制作中都有著專門的處理流程。

四足動物的動作設計是游戲行業(yè)的痛點之一。人類的走路和跑步動作相對自然,但四足動物的動作往往難以協(xié)調(diào)。而這類問題正是 Sora 這類技術可以發(fā)揮優(yōu)勢的地方。特別是像貓狗等常見的動物,由于不涉及復雜的 IP 和版權(quán)問題,更適合作為實踐案例來解決動作設計上的挑戰(zhàn)。

不過,相較視頻生成模型,圖片生成模型在技術上已經(jīng)更為成熟,這使得其在多個行業(yè)中的應用更加廣泛和深入。

“目前在游戲行業(yè)中應用最多的還是文生圖模型。一般擁有自己 IP 的企業(yè)都會利用已有的形象素材,訓練自家的文生圖模型,生成視頻或相關角色的形象參考”。據(jù)黃鴻波介紹,所有的文生圖、文生視頻、角色設計生成、形象設計生成,都無法直接采用生成產(chǎn)物,只是給設計人員一些靈感和啟發(fā),讓他們以此為參考進行設計和開發(fā)。以一個海島家園類的游戲為例,可以讓 Stable Diffusion 等工具生成大量的海島、家園、游戲風格設計圖,給美術的同學一些啟發(fā),這也是目前企業(yè)內(nèi)多數(shù)的落地形式。

在電商行業(yè)中,圖片生成模型也已得到廣泛應用。吳海波提到,相較于視頻生成技術,圖片生成技術已經(jīng)發(fā)展得更為成熟,因此在這一領域的應用也更為迅速。去年,核心團隊來自蘑菇街的 AI 商拍工具 WeShop 上線,WeShop 正是基于 Stable Diffusion 模型提供 AI 智能商品圖生成服務。目前,WeShop 主要服務于兩類用戶:一類是供應鏈為主的工廠老板,他們可以利用 WeShop AI 將商品圖片轉(zhuǎn)換成不同模特和背景的圖片;另一類是計劃拓展海外市場的電商,他們可以通過 WeShop AI 將國內(nèi)商品圖片適配到適合海外市場的模特場景中。

“展望圖片生成技術的未來,我認為 Sora 的成功表明模型規(guī)模的重要性,我們預期圖片領域的基礎模型也將取得顯著進步。業(yè)界的技術路線和思路正趨于一致,大家都認識到需要引入 DiT 結(jié)構(gòu)。盡管目前還有一條嘗試純 Transformer 基礎架構(gòu)的路線,類似 于 GPT,但尚未超越現(xiàn)有技術。然而,隨著 Sora 證明了大模型的有效性,我們可以預見將有更多資源投入到圖片生成領域,推動其向前發(fā)展。這一點或許尚未得到廣泛關注,但我堅信圖片生成技術很快將迎來重大突破。”吳海波總結(jié)道。

3擔心被 Sora 們?nèi)〈?

Sora 給不同行業(yè)帶來巨大變革可能得同時,也給就業(yè)市場帶來了挑戰(zhàn),越來越多的從業(yè)者開始擔心,自己終將被 Sora 們所取代。首當其沖的是影視行業(yè)從業(yè)者,不少聲音開始討論“特效公司要死了嗎”“導演、后期是不是都要失業(yè)了”。

對此,受訪專家們普遍持樂觀態(tài)度。以 CG 技術的出現(xiàn)為例,當年 CG 技術嶄露頭角時,許多動畫師曾擔憂自己的工作可能會受到威脅。然而,事實并非如此。實際上,CG 技術并未降低制作電影或動畫的成本,反而使得成本有所上升。與此同時,CG 技術讓人們能夠創(chuàng)作出更高質(zhì)量、更具視覺震撼力的作品,這反而激發(fā)了畫師和導演的創(chuàng)造力,使他們能夠制作出更為精彩的內(nèi)容,也進一步提升了整個行業(yè)的標準。

吳海波認為,面對 CG 技術這樣的革新,我們應該積極擁抱變化,從中尋找新的機遇,而不是一味地擔憂和抵觸。如果我們固執(zhí)地堅持舊有的工作方式而不愿適應,那么確實可能會面臨問題。但與此同時,新技術也為我們打開了更廣闊的市場,提升了行業(yè)的上限,并為我們提供了更多嘗試不同角度和方法的可能性。“如果你堅持認為自己被新技術替代了,這或許是一種無法避免的心態(tài)。然而,我認為,有些工作被新技術解放,實際上是一件好事。換個角度看,我們可以說自己是從原有的束縛中得到了解放,迎來了新的機遇和挑戰(zhàn)。”

Sora 同樣如此。目前來看,Sora 仍只是一款工具,并不能完全取代某一職位或環(huán)節(jié),而是幫助人們更好地提升工作效率。 以影視拍攝流程為例,盡管有 ChatGPT 這樣的大語言模型協(xié)助,劇本編寫仍需編劇來把控故事情節(jié)和故事性。分鏡鏡頭的策劃也需要導演來完成,因為模型生成的成品往往缺乏靈魂,需要人類加入細節(jié)、個人的情感和靈魂。同樣,演員也是不可或缺的角色,因為觀眾既有人注重故事情節(jié),也有人喜歡看明星的表演,如果取代了明星,電影就失去了其獨特的意義。

那么,Sora 究竟帶來了什么,又能取代什么呢?

黃鴻波認為,Sora 確實能加速視頻和電影的制作效率,降低生產(chǎn)成本,并有可能取代部分特效制作公司的流程。但需要注意的是,這并非完全的取代,而是借助 Sora 完成一個大致的 demo,為特效公司提供思路,并替代部分相對簡單的特效制作。原本需要十天才能完成的工作,現(xiàn)在可能只需要三五天就能完成。必須明確的是,任何技術的誕生都只是一種工具,其存在的目的是為了服務于人類。因此,完全的取代并不存在,工具的作用更多的是降低成本、提升效率。

4寫在最后:參與到 AI 變革中來

近兩年,AI 技術的快速演變和不斷創(chuàng)新的特性超乎了所有人的預期,一個又一個創(chuàng)新模型的發(fā)布讓人們不斷驚嘆于 AI 的潛力和能力。時代之下,更應該保持對 AI 技術發(fā)展的關注,隨時準備迎接新的突破和變化,通過不斷學習和適應新技術,在 AI 技術的浪潮中找到自己的位置,參與到 AI 變革中來。

“我們現(xiàn)在的目標是首先參與到這場變革中來,將自己轉(zhuǎn)變?yōu)橐粋€ AI Native 的公司。我們從蘑菇街獨立出一個團隊來開發(fā) WeShop,就是希望以創(chuàng)業(yè)團隊的心態(tài)來完成這個項目。如果我們?nèi)匀皇褂脗鹘y(tǒng)的業(yè)務模式和資源來應用 AI 技術,我們可能會錯過未來真正的大機會。因此,我們保持創(chuàng)業(yè)團隊的狀態(tài),摒棄過去的包袱,以便在 AI Native 的環(huán)境中創(chuàng)造出新物種,抓住未來的機會?!眳呛2ㄕJ為,當前 AI 技術在電商領域的變革性影響難以清晰描繪,但其一定會為整個行業(yè)帶來深刻變革,這不僅僅局限于在現(xiàn)有電商平臺上增加智能問答功能或 AI 拍照等改進,而是 當 AI 技術普及到一定程度時,人們將會見證一個全新的電商生態(tài)系統(tǒng)的崛起。

對于影視和游戲行業(yè),AI 帶來的變革同樣在發(fā)生,但目前都還缺少一個完整可落地的方案——一個能將文生圖、文生視頻等單一化工具串聯(lián)起來的綜合性工具。

黃鴻波認為,理想的情況是,只需要手稿和文字描述,就能直接流程化生成包括2D 圖像、3D 模型、立繪、骨骼綁定以及動作生成等在內(nèi)的完整一套內(nèi)容。對于游戲行業(yè)而言,這樣的綜合性工具能夠極大地提升開發(fā)效率。通過輸入文字描述和手稿,工具能夠自動處理生成游戲所需的各種資源,從而大大減輕開發(fā)者的負擔。同樣,影視行業(yè)也迫切需要這樣的解決方案。只需要提供腳本,工具便能直接分析出完整的故事情節(jié)梗概,并基于這一情節(jié)生成圍繞其展開的視頻內(nèi)容。這樣不僅能確保畫面風格的統(tǒng)一性和一致性,還能提高影視制作的效率和質(zhì)量。