Janus-Pro最多用了256張英偉達A100 GPU卡訓(xùn)練了14天,最少用128張英偉達A100訓(xùn)練7天,整個模型訓(xùn)練投入僅數(shù)萬美金,這與數(shù)據(jù)規(guī)模、蒸餾方法等創(chuàng)新模式是分不開的。
(圖片來源:the Verge)
DeepSeek除夕放大招,這絕對是 AI 行業(yè)最難眠的一夜了。
1月28日凌晨,人工智能社區(qū)Hugging Face顯示,DeepSeek剛剛發(fā)布了開源多模態(tài)人工智能模型Janus-Pro,擁有10億和70億參數(shù)規(guī)模,僅使用128顆英偉達A100進行訓(xùn)練1周。其中,Janus-Pro-7B在GenEval和DPG-Bench基準(zhǔn)測試中擊敗了OpenAI的DALL-E 3和Stable Diffusion。
簡單來說,Janus-Pro模型既能讓AI讀圖(基于SigLIP-L),又能讓AI生圖(借鑒LlamaGen),分1.5B和7B兩個大小。要知道,GPT-4o的圖片生成多模態(tài)模型至今沒開放。
它到底有多么厲害?你看看DeepSeek給的案例:它能解答圖片在杭州西湖,也能根據(jù)提示詞生成惟妙惟肖的圖片。
最近幾天,DeepSeek爆火引發(fā)資本市場關(guān)注。1月27日美股收盤,英偉達(NASDAQ:NVDA)股價暴跌17%,收于118.58美元,市值蒸發(fā)近6000億美元(約合4.3萬億元人民幣)。CNBC稱,這是“美國公司有史以來的最大跌幅”。
對此,英偉達方面回應(yīng)稱:“DeepSeek是一項卓越的人工智能進展,也是測試時擴展的絕佳范例。DeepSeek的研究展示了如何運用該技術(shù),借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型。推理過程需要大量英偉達GPU和高性能網(wǎng)絡(luò)。如今我們有三條擴展定律:持續(xù)適用的預(yù)訓(xùn)練和后訓(xùn)練定律,以及新的測試時擴展定律?!?/p>
128顆英偉達A100訓(xùn)練1周,Janus-Pro性能超OpenAI
事實上,DeepSeek一直在研發(fā)多模態(tài)生成式AI模型。
2024年前后,DeepSeek推出Janus,這是一種統(tǒng)一理解和生成的開源多模態(tài)模型(MLLM),它將視覺編碼解耦,以實現(xiàn)多模態(tài)理解和生成。
Janus基于DeepSeek-LLM-1.3b-base 構(gòu)建,該庫在大約5000億個文本標(biāo)記的語料庫上進行訓(xùn)練。對于多模態(tài)理解,它使用SigLIP-L作為視覺編碼器,支持384x384圖像輸入。
2024年11月13日,JanusFlow 發(fā)布,這是一種用于圖像生成的具有校正流的新型統(tǒng)一模型,也是一個功能強大的框架,引入了一種極簡架構(gòu),將自回歸語言模型與最先進的生成模型方法蒸餾相結(jié)合,它將圖像理解和生成統(tǒng)一到一個模型中,
DeepSeek認為,蒸餾方式可以直接在大型語言模型框架內(nèi)進行訓(xùn)練,無需進行復(fù)雜的架構(gòu)修改。
2025年開年,Janus全面升級到高級版Janus-Pro。
具體來說,Janus-Pro是一種新穎的自回歸框架,它將多模態(tài)理解和生成統(tǒng)一起來,將視覺編碼解耦,以實現(xiàn)多模態(tài)理解和生成。它通過將視覺編碼解耦為單獨的路徑來解決以前方法的局限性,同時仍然使用單一、統(tǒng)一的轉(zhuǎn)換器架構(gòu)進行處理。
這種解耦不僅緩解了視覺編碼器在理解和生成中的角色沖突,還增強了框架的靈活性。
不過,Janus-Pro架構(gòu)與Janus相同,總體體系結(jié)構(gòu)的核心設(shè)計原理,是將視覺編碼解析以進行多模式的理解和生成,應(yīng)用獨立的編碼方法將原始輸入轉(zhuǎn)換為功能,然后由統(tǒng)一自回歸Transformer處理。為了進行多模式理解,我們使用siglip 編碼器從圖像中提取高維語義特征。將這些特征從2-D網(wǎng)格平坦為1-D序列,并使用理解適配將這些圖像特征映射到LLM的輸入空間中。
對于視覺生成任務(wù),Janus-Pro使用的VQ令牌將圖像轉(zhuǎn)換為離散ID。將ID序列平坦為1-D之后,我們使用一代適配器將與每個ID相對應(yīng)的代碼簿嵌入到LLM的輸入空間中。然后,團隊將這些特征序列加和形成多模式特征序列,然后將其送入LLM進行處理。除了LLM中的內(nèi)置預(yù)測頭外,團隊還利用一個隨機初始化的預(yù)測頭來進行視覺生成任務(wù)中的圖像預(yù)測。整個模型遵循自回歸框架。
Janus-Pro基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 構(gòu)建,超越了之前的統(tǒng)一模型,并且達到或超過了特定任務(wù)模型的性能。Janus-Pro 的簡單性、高靈活性和有效性使其成為下一代統(tǒng)一多模態(tài)模型的有力候選者。
值得一提的是訓(xùn)練,DeepSeek稱,“我們在單個訓(xùn)練步驟中根據(jù)指定的比率混合所有數(shù)據(jù)類型。我們的 Janus 使用 HAI-LLM 進行訓(xùn)練和評估,這是一個構(gòu)建在 PyTorch 之上的輕量級且高效的分布式訓(xùn)練框架。整個訓(xùn)練過程在 1.5B/7B 模型的 16/32 個節(jié)點的集群上花費了大約 7/14 天,每個節(jié)點配備 8 個 Nvidia A100 (40GB) GPU?!?/span>
也就是說,Janus-Pro最多用了256張英偉達A100 GPU卡訓(xùn)練了14天,最少用128張英偉達A100訓(xùn)練7天,整個模型訓(xùn)練投入僅數(shù)萬美金,這與數(shù)據(jù)規(guī)模、蒸餾方法等創(chuàng)新模式是分不開的。
對外展示的多個基準(zhǔn)測試顯示,Janus-Pro 卓越的多模態(tài)理解能力,并顯著提高了文本到圖像的指令跟蹤性能。具體來說,Janus-Pro-7B在多模態(tài)理解基準(zhǔn)MMBench 上取得了79.2的分數(shù),超越了Janus (69.4)、TokenFlow (68.9)等最先進的統(tǒng)一多模態(tài)模型,和MetaMorph (75.2)。此外,在文本到圖像指令跟蹤排行榜 GenEval中,Janus-Pro-7B 得分為 0.80,優(yōu)于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。
目前,Janus-Pro相關(guān)代碼已經(jīng)放在了GitHub當(dāng)中。
此外,值得提醒的是,DeepSeek已經(jīng)限制新用戶注冊了,僅支持+86手機用戶,也就是鎖區(qū)了,建議海外的朋友需要買虛擬號注冊。
“近期DeepSeek線上服務(wù)受到大規(guī)模惡意攻擊,為持續(xù)提供服務(wù),暫時限制了+86手機號以外的注冊方式,已注冊用戶可以正常登錄,感謝理解和支持?!盌eepSeek稱。
AI算力格局加速演進
DeepSeek的模型證明了一個重要觀點:打造出色的AI模型,未必需要昂貴的高端芯片;進一步表明AI技術(shù)并不存在明顯的“護城河”,模型技術(shù)的超越已成為常態(tài)。
據(jù)論文顯示,DeepSeek-V3開源基礎(chǔ)模型性能與GPT-4o和Claude Sonnet 3.5等頂尖模型相近,但訓(xùn)練成本極低。整個訓(xùn)練在2048塊英偉達H800 GPU集群上完成,僅花費約557.6萬美元,不到其他頂尖模型訓(xùn)練成本的十分之一。而GPT-4o等模型的訓(xùn)練成本約為1億美元、至少在萬個H100 GPU量級的計算集群上訓(xùn)練;Llama 3.1在訓(xùn)練成本超過6000萬美元。
因此,這個發(fā)現(xiàn)對以高端AI芯片著稱的英偉達來說無疑是個重大打擊,其面臨更多質(zhì)疑。
1月27日,DeepSeek暴擊華爾街,引發(fā)AI概念股的估值泡沫破裂擔(dān)憂,歐美科技股市值或蒸發(fā)1.2萬億美元、Meta緊急組建多個小組研究復(fù)制DeepSeek的數(shù)據(jù)和技術(shù),英偉達最深跌超18%,市值蒸發(fā)規(guī)模創(chuàng)美國股市史上最大,歐美芯片制造商以及為AI和數(shù)據(jù)中心供電的全產(chǎn)業(yè)鏈公司齊跌。
其中,英偉達迎來自 2020 年 3 月 16 日以來在市場上表現(xiàn)最差的一天,當(dāng)日跌去17%。
上周,在英偉達超越蘋果之后再次成為市值最高的上市公司,但周一股價下跌導(dǎo)致科技股占比較高的納斯達克指數(shù)下跌 3.1%,英偉達也降至市值第三高的上市公司,僅次于蘋果和微軟。
此次拋售的原因是人們擔(dān)心DeepSeek在全球 AI 領(lǐng)域競爭加劇。去年 12 月下旬,DeepSeek 推出了一款免費的開源大型語言模型,據(jù)稱該模型僅用了兩個月的時間和不到 600 萬美元就構(gòu)建完成,使用的是Nvidia 的低性能芯片H800芯片組。
Cantor分析師在周一的一份報告中表示,DeepSeek 最新技術(shù)的發(fā)布已經(jīng)引起了“人們對其對計算需求影響的極大擔(dān)憂,并因此擔(dān)心GPU支出將達到峰值”。
對于英偉達來說,此次損失是該公司去年9月2790億美元損失的兩倍多,這是當(dāng)時歷史上最大的單日市值損失,超過了Meta在2022年的2320億美元的損失。在此之前,最大跌幅是蘋果在 2020 年的 1820 億美元。此外,當(dāng)前英偉達的市值跌幅是可口可樂的兩倍多,并超過了Oracle(甲骨文)和Netflix(奈飛)的市值。
對此,英偉達予以回應(yīng),并否認Scale創(chuàng)始人、CEO亞歷山大·王(Alexandr Wang)的質(zhì)疑。
Alexandr Wang表示:“DeepSeek大約有5萬張H100計算卡,他們顯然不能談?wù)撨@件事,因為這違反了美國實施的出口管制。我認為這是真的,我認為他們的籌碼比其他人預(yù)期的要多,但也會繼續(xù)前進。他們將受到芯片控制和出口管制的限制?!?/span>
英偉達回應(yīng)稱,DeepSeek的研究展示了如何運用該技術(shù),借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型。
華泰證券表示,DeepSeek V3訓(xùn)練成本相當(dāng)于Llama3系列的7%,對當(dāng)前世代AI大模型的降本做出了重要貢獻;同時,目前北美四大AI公司主要通過擴大GPU集群規(guī)模的方式探索下一代大模型,DeepSeek的方式是否在下一代模型研發(fā)中有效還有待觀察。此外,DeepSeek這次的成功顯示,在Scaling Law放緩的大背景下,中美在大模型技術(shù)上的差距有望縮小。
分析師Holger Zschaepitz表示:“中國的DeepSeek可能代表了對美國股市最大的威脅,因為該公司似乎以極低的價格建立了一個突破性的 AI 模型,而無需依賴最先進的芯片,這引發(fā)了對數(shù)百億美元資本支出是否有用的質(zhì)疑,這些資金正被投入到這個行業(yè)中?!?/p>
最新消息是,美國總統(tǒng)特朗普已經(jīng)表示,拜登的《芯片法案》激勵措施“荒謬”,預(yù)計他將對進口芯片征收高額關(guān)稅。此外,他還提到DeepSeek AI技術(shù)是“積極的(positive)”表現(xiàn)。
“……想出一種更快、更便宜的 AI 方法,這很好。如果它是事實,而且是真的,我認為這是積極的,雖然沒有人知道,但我認為這是積極的。”特朗普表示。
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)