一级毛片播放,色视频网站在线观看

強(qiáng)大到不敢給普通人用！史詩(shī)級(jí)大模型 Sora 如何讓眾行業(yè)一夜變天？

InfoQ公眾號(hào)

2024-05-01 20:37:04

1視頻生成模型“新王登基”，Sora 何以成為全球焦點(diǎn)?

2023年以來(lái)，多模態(tài)視頻生成技術(shù)取得了顯著的進(jìn)展和突破，從 Runway 到 Pika 再到年末的 VideoPoet，視頻生成模型進(jìn)入到加速階段。2024年2月，OpenAI 旗下視頻生成模型 Sora 正式對(duì)外發(fā)布。Sora 一名源于日文“空”（そら sora），取自天空之意，以示其無(wú)限的創(chuàng)造潛力。與 Runway、Pika、VideoPoet 等“前輩”相比，Sora 在視頻生成效果和質(zhì)量上具有明顯優(yōu)勢(shì)。也正因如此，Sora 一經(jīng)發(fā)布就在全球范圍內(nèi)掀起了討論熱潮，迅速成為當(dāng)前最受關(guān)注的模型之一。

“Sora 的出現(xiàn)時(shí)間要比我們預(yù)想的要早很多，OpenAI 已經(jīng)提前帶來(lái)了驚喜”。WeShop 唯象 GM 吳海波在接受 InfoQ 采訪時(shí)提到，從技術(shù)層面來(lái)看，Sora 并沒(méi)有引入全新的理論框架，而是將現(xiàn)有技術(shù)進(jìn)行了新的整合。自從 Sora 問(wèn)世以來(lái)，人們對(duì)其背后的技術(shù)進(jìn)行了深入分析。比如，Meta 的謝賽寧曾在 Twitter 上進(jìn)行拆解，其認(rèn)為 Sora 所采用的 DiT 結(jié)構(gòu)，就是基于他在 ICCV2023發(fā)布的 DiT（Diffusion Transformer）思路構(gòu)建的，這也是支撐 Sora 的一個(gè)重要基礎(chǔ)。

在模型架構(gòu)方面，Runway、Pika 等模型底層采用的是擴(kuò)散模型（Diffusion Model）技術(shù)，利用高斯噪音和 prompt，再通過(guò) U-Net 對(duì)噪音進(jìn)行解析，實(shí)現(xiàn)逐幀的渲染。雖然 prompt 通過(guò) Transformer 技術(shù)得到了前后文的聯(lián)系，但視頻生成中卻沒(méi)有較大時(shí)間軸或前后聯(lián)系的概念，從而導(dǎo)致先前的視頻只能生成三四秒，畫面跳躍跳幀等問(wèn)題嚴(yán)重。

而 Sora 利用 Transformer 替代 Diffusion 的 U-Net，不限制原始視頻的尺寸，不僅能通過(guò) Transformer 技術(shù)保證前后的連貫性，還能保證生成視頻在各個(gè)畫幅比例下都有很好的表現(xiàn)，從而生成時(shí)長(zhǎng)更長(zhǎng)、效果更好的視頻。

目前，Sora 能夠生成1分鐘的視頻，深圳市鼎盛方圓科技發(fā)展有限公司創(chuàng)始人黃鴻波表示，理論上來(lái)看，Sora 是能夠生成生成更長(zhǎng)時(shí)間的視頻的，但其中的不確定性會(huì)更多，也會(huì)需要更高的算力?！皬牧愕揭缓芎?jiǎn)單，但再想往上則需要質(zhì)的飛躍，難度比較大”。

比起生成的視頻時(shí)長(zhǎng)，黃鴻波認(rèn)為，Sora 這類視頻生成模型更應(yīng)解決的是如何保持人物一致性和場(chǎng)景一致性。這兩點(diǎn)都是目前業(yè)內(nèi)比較難以克服的難題。以人物為例，一段完整的視頻中不僅存在主角，還存在配角和各種人物關(guān)系。在電影和電視劇的實(shí)際拍攝中，人是真實(shí)存在不會(huì)改變的，但 Sora 或其他目前現(xiàn)存的技術(shù)都無(wú)法保證人物的一致性。人物的每次生成，臉型、膚色、眼睛大小、痣的位置等都會(huì)發(fā)生變化。場(chǎng)景同樣如此，不同的鏡頭會(huì)從不同角度進(jìn)行拍攝，但周圍的場(chǎng)景需要有一些變化?！皬哪壳暗囊曨l演示來(lái)看，Sora 已經(jīng)趨近完美，如果能解決人物一致性和場(chǎng)景一致性的問(wèn)題，基本上就能達(dá)到影視公司想要的結(jié)果了”。

此外，Sora 對(duì)“世界模型”的實(shí)現(xiàn)方式也存在一定爭(zhēng)議。OpenAI 聲稱 Sora“擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條可行之路”。英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 也斷言，Sora 是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎，是一個(gè)可學(xué)習(xí)的模擬器，或“世界模型”。但也有人對(duì)此提出質(zhì)疑。圖靈獎(jiǎng)得主 Yann LeCun 認(rèn)為 Sora 并不理解物理世界，甚至稱 Sora 對(duì)“世界模型”的實(shí)現(xiàn)方式注定是死路一條。

具體來(lái)說(shuō)，Sora 在生成視頻時(shí)依賴于文本指令，這些文本描述了場(chǎng)景和意義。如果 Sora 能夠理解視頻內(nèi)容，并在給定一段視頻后，補(bǔ)充出更長(zhǎng)的視頻，且前后情節(jié)邏輯一致，那么這將是一個(gè)重要的進(jìn)步。這將表明 Sora 不僅僅是通過(guò)視覺(jué)理解事物，而是能夠從更深層次上理解視頻內(nèi)容。

“長(zhǎng)期來(lái)看，如果 Sora 能夠在視頻中實(shí)現(xiàn)首尾呼應(yīng)，比如在電影中常見的前后呼應(yīng)的情節(jié)，這表明它具有更長(zhǎng)的因果鏈理解能力。這將是一個(gè)重要的里程碑，表明 Sora 越來(lái)越像是一個(gè)世界模型，能夠理解物理定律和社會(huì)規(guī)則?！眳呛２ㄌ岬?，目前，Sora 還處于一個(gè)比較早期的階段，類似于早期的 GPT-3——它展現(xiàn)出了一定的能力，但尚未達(dá)到 ChatGPT 那樣的成熟度?！暗倪M(jìn)步速度很快，2024年值得我們期待，屆時(shí)應(yīng)該會(huì)有許多新的進(jìn)展出現(xiàn)?！?/p>

2Sora 如何重塑千行百業(yè)?

當(dāng)前，Sora 還未正式對(duì)外開放。在近日的一場(chǎng)專訪中，Sora 的核心團(tuán)隊(duì)成員表示 Sora 太過(guò)強(qiáng)大，還不能讓普通人很快就用到，OpenAI 正在收集用戶反饋，還有很多安全工作要做。而根據(jù) OpenAI CTO Mira Murati 此前的說(shuō)法，“Sora 最快在今年內(nèi)開放公測(cè)”。

作為一個(gè)基礎(chǔ)模型，Sora 無(wú)疑會(huì)對(duì)各行各業(yè)產(chǎn)生影響，在影視、電商、游戲行業(yè)中，Sora 一定會(huì)帶來(lái)新的想象力。其中，影視行業(yè)將會(huì)成為 Sora 的首選。

目前，影視行業(yè)的制作流程涉及多個(gè)環(huán)節(jié)。編劇完成劇本后，會(huì)尋找合適的導(dǎo)演合作。在好萊塢或國(guó)內(nèi)的大型制片廠，他們通常會(huì)先找普通演員拍攝樣品，需要將90分鐘的電影精華部分濃縮，拍攝成30至40分鐘的樣片，用于向投資人展示電影的內(nèi)容、故事情節(jié)、人物設(shè)定以及特效應(yīng)用等。只有當(dāng)投資人認(rèn)可了故事的創(chuàng)新點(diǎn)和市場(chǎng)潛力后，才會(huì)決定投資。不過(guò)，這類樣片的制作成本相當(dāng)高，每分鐘的制作費(fèi)用在1至2萬(wàn)元之間。

如果引入 Sora 這類視頻生成模型，將大幅降低制作成本，成本可能壓縮至每分鐘數(shù)千元。此外，Sora 還能免除影視制作的場(chǎng)景搭設(shè)、威亞特效、影視后期等工作，顯著提高制作效率。

“在與北京影視行業(yè)的合作中，我發(fā)現(xiàn)他們?cè)谂臄z電視劇和電影時(shí)，經(jīng)常遇到一些無(wú)法通過(guò)常規(guī)手段拍攝的鏡頭，如宇宙大爆炸、地月軌道等場(chǎng)景，這些都需要依賴3D 后期制作來(lái)完成。但這類鏡頭的制作成本極高。以電影行業(yè)常見的25幀 / 秒為例，一個(gè)2至3秒的鏡頭就包含約70幀的畫面，按照幀計(jì)費(fèi)的3D 后期制作費(fèi)用，這樣短暫的鏡頭也需要投入上千甚至上萬(wàn)的成本?！秉S鴻波介紹道，有了 Sora 技術(shù)后，影視公司可以將那些特效制作成本高昂或無(wú)法通過(guò)演員實(shí)際拍攝的場(chǎng)景，通過(guò) Sora 或類似的視頻生成模型來(lái)展現(xiàn)?！癝ora 不僅對(duì)影視行業(yè)有益，它對(duì)傳統(tǒng)廣告制作、游戲和流媒體方面也有一定的影響，一些畫面鏡頭的拍攝通過(guò) AI 在幾分鐘內(nèi)就能完成，節(jié)省了大量的人力物力?！?/p>

在電商行業(yè)中，Sora 這類視頻生成模型也帶來(lái)了新的想象力。

傳統(tǒng)的產(chǎn)品視頻拍攝需要模特、場(chǎng)景布置、拍攝以及后期制作等多個(gè)環(huán)節(jié)，而 Sora 只需輸入相應(yīng)的文本描述或圖片，即可在短時(shí)間內(nèi)生成逼真的視頻，極大地提高了電商營(yíng)銷素材制作效率。此外，商家可以利用 Sora 生成產(chǎn)品在不同場(chǎng)景下的視頻，或者展示產(chǎn)品在不同空間布局下的效果，從而提升消費(fèi)者的購(gòu)買意愿。

雖然 Sora 在視頻生成方面取得了顯著進(jìn)步，但要想真正應(yīng)用在電商行業(yè)中，仍面臨一些挑戰(zhàn)?！澳壳?，用戶可以通過(guò)提交指令給 Sora，Sora 會(huì)在一段時(shí)間后生成視頻反饋給用戶。這種交互方式雖然令人興奮，但也存在局限性，因?yàn)樗狈γ鞔_的控制和交互方式?！眳呛２ㄌ岬?，以電商為例，商家可能更希望基于某個(gè)已有商品生成視頻內(nèi)容，在將實(shí)體商品與視頻結(jié)合方面，Sora 目前還無(wú)法滿足需求。Sora 無(wú)法將商家的商品巧妙地融入視頻中，并展示商品在真實(shí)場(chǎng)景中的應(yīng)用，讓潛在顧客直觀地了解商品。

“盡管 Sora 已經(jīng)展示了在自由發(fā)揮狀態(tài)下的創(chuàng)造力，但我們還不清楚如何將這些技術(shù)與現(xiàn)有電商平臺(tái)有效結(jié)合，如何讓它按照我們的需求生成內(nèi)容，還有待進(jìn)步一的優(yōu)化?！眳呛２ū硎?，要想在電商行業(yè)中進(jìn)一步拓展 Sora 技術(shù)的應(yīng)用范圍，還需要不斷研究并探索新的方法，以實(shí)現(xiàn)商品與視頻的完美結(jié)合。

游戲作為較早落地 AIGC 技術(shù)的行業(yè)之一，在制作過(guò)程中也可引入 Sora 這類視頻生成模型。黃鴻波提到，目前游戲行業(yè)比較容易落地的是大場(chǎng)景、風(fēng)格轉(zhuǎn)換和季節(jié)轉(zhuǎn)換類型。

比如，可以借助 Sora 技術(shù)，實(shí)現(xiàn)游戲中的季節(jié)轉(zhuǎn)換等場(chǎng)景，通過(guò)每個(gè)季節(jié)2-3秒的場(chǎng)景交替生成游戲內(nèi)的視頻，這樣不僅可以提升游戲的視覺(jué)體驗(yàn)，還能有效減少游戲的制作開發(fā)成本。游戲內(nèi)的服裝道具也可以通過(guò) Sora 來(lái)完成。而對(duì)于游戲人物的動(dòng)作，如跑步和飛翔，傳統(tǒng)的制作方法通常涉及到底模建模、骨骼綁定以及動(dòng)作合成。現(xiàn)在這些工作也可以通過(guò) AI 技術(shù)來(lái)完成，在最后由人工進(jìn)行必要的補(bǔ)充和調(diào)整，以確保動(dòng)作的真實(shí)性更加出色。

此外，光影和材料的仿真也是游戲制作中的重要環(huán)節(jié)，這些同樣可以通過(guò) AI 技術(shù)實(shí)現(xiàn)。例如，當(dāng)角色從兩米高的地方跳下時(shí)，不同材質(zhì)的服裝（如絲綢、粗布、盔甲）會(huì)產(chǎn)生不同的漂浮效果、落地速度和聲音，這些細(xì)節(jié)在游戲和電影制作中都有著專門的處理流程。

四足動(dòng)物的動(dòng)作設(shè)計(jì)是游戲行業(yè)的痛點(diǎn)之一。人類的走路和跑步動(dòng)作相對(duì)自然，但四足動(dòng)物的動(dòng)作往往難以協(xié)調(diào)。而這類問(wèn)題正是 Sora 這類技術(shù)可以發(fā)揮優(yōu)勢(shì)的地方。特別是像貓狗等常見的動(dòng)物，由于不涉及復(fù)雜的 IP 和版權(quán)問(wèn)題，更適合作為實(shí)踐案例來(lái)解決動(dòng)作設(shè)計(jì)上的挑戰(zhàn)。

不過(guò)，相較視頻生成模型，圖片生成模型在技術(shù)上已經(jīng)更為成熟，這使得其在多個(gè)行業(yè)中的應(yīng)用更加廣泛和深入。

“目前在游戲行業(yè)中應(yīng)用最多的還是文生圖模型。一般擁有自己 IP 的企業(yè)都會(huì)利用已有的形象素材，訓(xùn)練自家的文生圖模型，生成視頻或相關(guān)角色的形象參考”。據(jù)黃鴻波介紹，所有的文生圖、文生視頻、角色設(shè)計(jì)生成、形象設(shè)計(jì)生成，都無(wú)法直接采用生成產(chǎn)物，只是給設(shè)計(jì)人員一些靈感和啟發(fā)，讓他們以此為參考進(jìn)行設(shè)計(jì)和開發(fā)。以一個(gè)海島家園類的游戲?yàn)槔?，可以?Stable Diffusion 等工具生成大量的海島、家園、游戲風(fēng)格設(shè)計(jì)圖，給美術(shù)的同學(xué)一些啟發(fā)，這也是目前企業(yè)內(nèi)多數(shù)的落地形式。

在電商行業(yè)中，圖片生成模型也已得到廣泛應(yīng)用。吳海波提到，相較于視頻生成技術(shù)，圖片生成技術(shù)已經(jīng)發(fā)展得更為成熟，因此在這一領(lǐng)域的應(yīng)用也更為迅速。去年，核心團(tuán)隊(duì)來(lái)自蘑菇街的 AI 商拍工具 WeShop 上線，WeShop 正是基于 Stable Diffusion 模型提供 AI 智能商品圖生成服務(wù)。目前，WeShop 主要服務(wù)于兩類用戶:一類是供應(yīng)鏈為主的工廠老板，他們可以利用 WeShop AI 將商品圖片轉(zhuǎn)換成不同模特和背景的圖片;另一類是計(jì)劃拓展海外市場(chǎng)的電商，他們可以通過(guò) WeShop AI 將國(guó)內(nèi)商品圖片適配到適合海外市場(chǎng)的模特場(chǎng)景中。

“展望圖片生成技術(shù)的未來(lái)，我認(rèn)為 Sora 的成功表明模型規(guī)模的重要性，我們預(yù)期圖片領(lǐng)域的基礎(chǔ)模型也將取得顯著進(jìn)步。業(yè)界的技術(shù)路線和思路正趨于一致，大家都認(rèn)識(shí)到需要引入 DiT 結(jié)構(gòu)。盡管目前還有一條嘗試純 Transformer 基礎(chǔ)架構(gòu)的路線，類似于 GPT，但尚未超越現(xiàn)有技術(shù)。然而，隨著 Sora 證明了大模型的有效性，我們可以預(yù)見將有更多資源投入到圖片生成領(lǐng)域，推動(dòng)其向前發(fā)展。這一點(diǎn)或許尚未得到廣泛關(guān)注，但我堅(jiān)信圖片生成技術(shù)很快將迎來(lái)重大突破?！眳呛２偨Y(jié)道。

3擔(dān)心被 Sora 們?nèi)〈?

Sora 給不同行業(yè)帶來(lái)巨大變革可能得同時(shí)，也給就業(yè)市場(chǎng)帶來(lái)了挑戰(zhàn)，越來(lái)越多的從業(yè)者開始擔(dān)心，自己終將被 Sora 們所取代。首當(dāng)其沖的是影視行業(yè)從業(yè)者，不少聲音開始討論“特效公司要死了嗎”“導(dǎo)演、后期是不是都要失業(yè)了”。

對(duì)此，受訪專家們普遍持樂(lè)觀態(tài)度。以 CG 技術(shù)的出現(xiàn)為例，當(dāng)年 CG 技術(shù)嶄露頭角時(shí)，許多動(dòng)畫師曾擔(dān)憂自己的工作可能會(huì)受到威脅。然而，事實(shí)并非如此。實(shí)際上，CG 技術(shù)并未降低制作電影或動(dòng)畫的成本，反而使得成本有所上升。與此同時(shí)，CG 技術(shù)讓人們能夠創(chuàng)作出更高質(zhì)量、更具視覺(jué)震撼力的作品，這反而激發(fā)了畫師和導(dǎo)演的創(chuàng)造力，使他們能夠制作出更為精彩的內(nèi)容，也進(jìn)一步提升了整個(gè)行業(yè)的標(biāo)準(zhǔn)。

吳海波認(rèn)為，面對(duì) CG 技術(shù)這樣的革新，我們應(yīng)該積極擁抱變化，從中尋找新的機(jī)遇，而不是一味地?fù)?dān)憂和抵觸。如果我們固執(zhí)地堅(jiān)持舊有的工作方式而不愿適應(yīng)，那么確實(shí)可能會(huì)面臨問(wèn)題。但與此同時(shí)，新技術(shù)也為我們打開了更廣闊的市場(chǎng)，提升了行業(yè)的上限，并為我們提供了更多嘗試不同角度和方法的可能性。“如果你堅(jiān)持認(rèn)為自己被新技術(shù)替代了，這或許是一種無(wú)法避免的心態(tài)。然而，我認(rèn)為，有些工作被新技術(shù)解放，實(shí)際上是一件好事。換個(gè)角度看，我們可以說(shuō)自己是從原有的束縛中得到了解放，迎來(lái)了新的機(jī)遇和挑戰(zhàn)?！?/p>

Sora 同樣如此。目前來(lái)看，Sora 仍只是一款工具，并不能完全取代某一職位或環(huán)節(jié)，而是幫助人們更好地提升工作效率。 以影視拍攝流程為例，盡管有 ChatGPT 這樣的大語(yǔ)言模型協(xié)助，劇本編寫仍需編劇來(lái)把控故事情節(jié)和故事性。分鏡鏡頭的策劃也需要導(dǎo)演來(lái)完成，因?yàn)槟Ｐ蜕傻某善吠狈`魂，需要人類加入細(xì)節(jié)、個(gè)人的情感和靈魂。同樣，演員也是不可或缺的角色，因?yàn)橛^眾既有人注重故事情節(jié)，也有人喜歡看明星的表演，如果取代了明星，電影就失去了其獨(dú)特的意義。

那么，Sora 究竟帶來(lái)了什么，又能取代什么呢?

黃鴻波認(rèn)為，Sora 確實(shí)能加速視頻和電影的制作效率，降低生產(chǎn)成本，并有可能取代部分特效制作公司的流程。但需要注意的是，這并非完全的取代，而是借助 Sora 完成一個(gè)大致的 demo，為特效公司提供思路，并替代部分相對(duì)簡(jiǎn)單的特效制作。原本需要十天才能完成的工作，現(xiàn)在可能只需要三五天就能完成。必須明確的是，任何技術(shù)的誕生都只是一種工具，其存在的目的是為了服務(wù)于人類。因此，完全的取代并不存在，工具的作用更多的是降低成本、提升效率。

4寫在最后:參與到 AI 變革中來(lái)

近兩年，AI 技術(shù)的快速演變和不斷創(chuàng)新的特性超乎了所有人的預(yù)期，一個(gè)又一個(gè)創(chuàng)新模型的發(fā)布讓人們不斷驚嘆于 AI 的潛力和能力。時(shí)代之下，更應(yīng)該保持對(duì) AI 技術(shù)發(fā)展的關(guān)注，隨時(shí)準(zhǔn)備迎接新的突破和變化，通過(guò)不斷學(xué)習(xí)和適應(yīng)新技術(shù)，在 AI 技術(shù)的浪潮中找到自己的位置，參與到 AI 變革中來(lái)。

“我們現(xiàn)在的目標(biāo)是首先參與到這場(chǎng)變革中來(lái)，將自己轉(zhuǎn)變?yōu)橐粋€(gè) AI Native 的公司。我們從蘑菇街獨(dú)立出一個(gè)團(tuán)隊(duì)來(lái)開發(fā) WeShop，就是希望以創(chuàng)業(yè)團(tuán)隊(duì)的心態(tài)來(lái)完成這個(gè)項(xiàng)目。如果我們?nèi)匀皇褂脗鹘y(tǒng)的業(yè)務(wù)模式和資源來(lái)應(yīng)用 AI 技術(shù)，我們可能會(huì)錯(cuò)過(guò)未來(lái)真正的大機(jī)會(huì)。因此，我們保持創(chuàng)業(yè)團(tuán)隊(duì)的狀態(tài)，摒棄過(guò)去的包袱，以便在 AI Native 的環(huán)境中創(chuàng)造出新物種，抓住未來(lái)的機(jī)會(huì)?！眳呛２ㄕJ(rèn)為，當(dāng)前 AI 技術(shù)在電商領(lǐng)域的變革性影響難以清晰描繪，但其一定會(huì)為整個(gè)行業(yè)帶來(lái)深刻變革，這不僅僅局限于在現(xiàn)有電商平臺(tái)上增加智能問(wèn)答功能或 AI 拍照等改進(jìn)，而是 當(dāng) AI 技術(shù)普及到一定程度時(shí)，人們將會(huì)見證一個(gè)全新的電商生態(tài)系統(tǒng)的崛起。

對(duì)于影視和游戲行業(yè)，AI 帶來(lái)的變革同樣在發(fā)生，但目前都還缺少一個(gè)完整可落地的方案——一個(gè)能將文生圖、文生視頻等單一化工具串聯(lián)起來(lái)的綜合性工具。

黃鴻波認(rèn)為，理想的情況是，只需要手稿和文字描述，就能直接流程化生成包括2D 圖像、3D 模型、立繪、骨骼綁定以及動(dòng)作生成等在內(nèi)的完整一套內(nèi)容。對(duì)于游戲行業(yè)而言，這樣的綜合性工具能夠極大地提升開發(fā)效率。通過(guò)輸入文字描述和手稿，工具能夠自動(dòng)處理生成游戲所需的各種資源，從而大大減輕開發(fā)者的負(fù)擔(dān)。同樣，影視行業(yè)也迫切需要這樣的解決方案。只需要提供腳本，工具便能直接分析出完整的故事情節(jié)梗概，并基于這一情節(jié)生成圍繞其展開的視頻內(nèi)容。這樣不僅能確保畫面風(fēng)格的統(tǒng)一性和一致性，還能提高影視制作的效率和質(zhì)量。

上一篇：熱度蓋過(guò)雷軍馬斯克，不造車的周鴻祎終成車圈頂流

下一篇：周鴻祎回應(yīng)“邁巴赫中標(biāo)者未付清余款”

青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院