DeepSeek這波強(qiáng)攻,徹底把OpenAI逼急了——深夜緊急上線o3-mini。
整整半個(gè)月,中國(guó)AI承包了國(guó)內(nèi)外各大頭條,影響力只增不減。
關(guān)于DeepSeek模型訓(xùn)練數(shù)據(jù)、GPU用量、成員構(gòu)成、RL訓(xùn)練算法,早已成為所有人的關(guān)注焦點(diǎn)。
SemiAnalysis一篇深度報(bào)道中,從多個(gè)方面進(jìn)行了推測(cè)——訓(xùn)練成本、對(duì)閉源模型利潤(rùn)影響、團(tuán)隊(duì)等等。
其中一些關(guān)鍵亮點(diǎn)包括:
DeepSeek不是「副業(yè)」,在GPU等硬件支出遠(yuǎn)超5億美元,論文中600萬(wàn)美元僅是預(yù)訓(xùn)練運(yùn)行GPU成本,研發(fā)、硬件總擁有成本(TCO)被排除在外
DeepSeek大約有5萬(wàn)塊Hopper GPU,包括特供版H800和H20
DeepSeek大約有150名員工,并定期從北大、浙大等招募頂尖人才,據(jù)稱有潛力的候選人能拿到超130萬(wàn)美元(934萬(wàn)元)薪水
DeepSeek一個(gè)關(guān)鍵創(chuàng)新——多頭潛注意力(MLA),耗時(shí)多月開(kāi)發(fā),將每個(gè)查詢KV量減少93.3%,顯著降低推理價(jià)格
o3性能遠(yuǎn)超R1和o1,谷歌Gemini 2.0 Flash Thinking與R1不相上下
V3和R1發(fā)布后,H100價(jià)格猛漲,杰文斯悖論(Jevon?s Paradox)正發(fā)揮作用
5萬(wàn)塊Hopper GPU,投資超5億美金
DeepSeek背后頂級(jí)投資者幻方量化(High-Flyer),很早就洞察到了AI在金融領(lǐng)域之外的巨大潛力,以及規(guī)?;渴鸬年P(guān)鍵重要性。
基于這一認(rèn)知,他們持續(xù)擴(kuò)大 GPU 投資規(guī)模。
在使用數(shù)千個(gè)GPU集群進(jìn)行模型實(shí)驗(yàn)后,幻方在2021年投資購(gòu)入了10,000塊A100,這一決策最終證明是極具前瞻性的。
隨著業(yè)務(wù)發(fā)展,他們?cè)?023年5月決定分拆成立「DeepSeek」,以更專注地推進(jìn)AI技術(shù)發(fā)展。由于當(dāng)時(shí)外部投資者對(duì)AI領(lǐng)域持謹(jǐn)慎態(tài)度,幻方選擇自行提供資金支持。
目前,兩家公司在人力資源和計(jì)算資源方面保持密切合作。
與媒體將其描述為「副業(yè)項(xiàng)目」不同,DeepSeek已發(fā)展成為一個(gè)嚴(yán)肅且協(xié)調(diào)有序的重要項(xiàng)目。即使考慮到出口管制的影響,高級(jí)分析師估計(jì)他們?cè)贕PU方面的投資規(guī)模已超5億美元。
據(jù)SemiAnalysis評(píng)估,他們擁有約50,000塊Hopper架構(gòu)GPU,這些計(jì)算資源在幻方和DeepSeek之間共享使用,并在地理位置上進(jìn)行了分散部署,用于交易、推理、訓(xùn)練和研究等多個(gè)領(lǐng)域。
根據(jù)分析,DeepSeek在服務(wù)器方面的資本支出總額約為16億美元,而運(yùn)營(yíng)這些計(jì)算集群的成本高達(dá)9.44億美元。
150+頂尖人才,年薪934萬(wàn)
在人才戰(zhàn)略方面,DeepSeek專注于招募中國(guó)本土人才,不過(guò)分看重候選人的過(guò)往履歷,而是更注重其實(shí)際能力和求知欲望。
他們經(jīng)常在北京大學(xué)和浙江大學(xué)等頂尖高校舉辦招聘活動(dòng),現(xiàn)有員工中很多都來(lái)自這些學(xué)校。
公司的職位設(shè)置非常靈活,不會(huì)過(guò)分限定崗位職責(zé),招聘廣告甚至強(qiáng)調(diào)可以自由使用數(shù)萬(wàn)個(gè)GPU資源。
他們提供極具競(jìng)爭(zhēng)力的薪酬待遇,據(jù)報(bào)道為優(yōu)秀候選人提供的年薪可達(dá)130萬(wàn)美元以上,遠(yuǎn)超其他科技巨頭和AI實(shí)驗(yàn)室的水平。
目前公司約有150名員工,并保持快速擴(kuò)張態(tài)勢(shì)。
歷史經(jīng)驗(yàn)表明,資金充足且目標(biāo)明確的創(chuàng)業(yè)公司,往往能夠突破現(xiàn)有技術(shù)邊界。
與谷歌等大公司的繁瑣決策流程相比,DeepSeek 憑借自主融資的優(yōu)勢(shì),能夠更快速地將創(chuàng)新理念付諸實(shí)踐。
有趣的是,DeepSeek在運(yùn)營(yíng)模式上卻與谷歌相似,主要依靠自建數(shù)據(jù)中心而非外部服務(wù)提供商。
這種模式為技術(shù)創(chuàng)新提供了更大的實(shí)驗(yàn)空間,使他們能夠在整個(gè)技術(shù)棧上進(jìn)行深度創(chuàng)新。
在SemiAnalysis看來(lái),DeepSeek已經(jīng)成為當(dāng)今最優(yōu)秀的「開(kāi)源權(quán)重」(open weights)實(shí)驗(yàn)室,其成就超越了Meta Llama、Mistral等競(jìng)爭(zhēng)對(duì)手。
訓(xùn)練成本不止600萬(wàn)美金
DeepSeek的定價(jià)策略和運(yùn)營(yíng)效率在本周引發(fā)了廣泛關(guān)注,特別是有關(guān)DeepSeek V3訓(xùn)練成本「600萬(wàn)美元」的報(bào)道。
但事實(shí)上,預(yù)訓(xùn)練成本僅是整體投入中的一小部分。
訓(xùn)練成本解析
高級(jí)分析師認(rèn)為,預(yù)訓(xùn)練階段的支出遠(yuǎn)不能代表模型的實(shí)際總投入。
據(jù)他們?cè)u(píng)估,DeepSeek在硬件方面的累計(jì)投資已遠(yuǎn)超5億美元。在開(kāi)發(fā)新架構(gòu)的過(guò)程中,需要投入大量資源用于測(cè)試新理念、驗(yàn)證新架構(gòu)設(shè)計(jì)和進(jìn)行消融實(shí)驗(yàn)(ablation studies)。
比如,作為DeepSeek重要技術(shù)突破的多頭潛注意力機(jī)制(Multi-Head Latent Attention),其開(kāi)發(fā)周期就長(zhǎng)達(dá)數(shù)月,消耗了大量的人力資源和計(jì)算資源。
論文中,提到的600萬(wàn)美元僅指預(yù)訓(xùn)練階段的GPU直接成本,這只是模型總成本的一個(gè)組成部分。
其中并未包含研發(fā)投入、硬件設(shè)施的總擁有成本(TCO)等關(guān)鍵要素。
舉例來(lái)說(shuō),Claude 3.5 Sonnet訓(xùn)練成本就達(dá)到了數(shù)千萬(wàn)美元。
如果這就是Anthropic所需的全部投入,他們就不會(huì)從谷歌籌集數(shù)十億美元,更不會(huì)從亞馬遜獲得數(shù)百億美元的投資。
這是因?yàn)樗麄冃枰掷m(xù)投入實(shí)驗(yàn)研究、架構(gòu)創(chuàng)新、數(shù)據(jù)采集與清洗、人才招募等多個(gè)方面。
算法優(yōu)化,讓性能差距縮小
V3無(wú)疑是一個(gè)令人矚目的模型,但需要在合適的參照系下評(píng)估其成就。
許多分析將V3與GPT-4o進(jìn)行對(duì)比,強(qiáng)調(diào)V3超越了后者的性能。這個(gè)結(jié)論雖然正確,但需要注意GPT-4o是在2024年5月發(fā)布的。
在AI快速迭代的背景下,半年前的技術(shù)水平已顯得相對(duì)陳舊。
此外,隨著時(shí)間推移,用更少的計(jì)算資源實(shí)現(xiàn)相當(dāng)或更強(qiáng)的性能,也符合行業(yè)發(fā)展規(guī)律。推理成本的持續(xù)下降正是AI進(jìn)步的重要標(biāo)志。
一個(gè)典型的例子是,現(xiàn)在可以在普通筆記本電腦上運(yùn)行的小型模型,已能達(dá)到與GPT-3相當(dāng)?shù)男阅芩?,而后者在發(fā)布時(shí)需要超級(jí)計(jì)算機(jī)進(jìn)行訓(xùn)練,且推理階段也需要多個(gè)GPU支持。
換言之,算法的持續(xù)優(yōu)化使得訓(xùn)練和推理同等性能的模型,所需的計(jì)算資源不斷減少,這種趨勢(shì)在行業(yè)內(nèi)屢見(jiàn)不鮮。
目前的發(fā)展趨勢(shì)表明,AI實(shí)驗(yàn)室在絕對(duì)投入增加的同時(shí),單位投入所能獲得的智能水平提升更為顯著。
據(jù)估計(jì),算法效率每年提升約4倍,這意味著實(shí)現(xiàn)相同性能所需的計(jì)算資源每年減少75%。
Anthropic CEO Dario的觀點(diǎn)更為樂(lè)觀,認(rèn)為算法優(yōu)化可以帶來(lái)10倍的效率提升。
就GPT-3級(jí)別的模型推理成本而言,已暴降1200倍。
在分析GPT-4成本演變時(shí),高級(jí)分析師還觀察到類似的下降趨勢(shì),盡管仍處于成本優(yōu)化曲線的早期階段。
與前述分析不同的是,這里的成本差異反映了性能提升和效率優(yōu)化的綜合效果,而非保持性能不變的單純比較。
在這種情況下,算法改進(jìn)和優(yōu)化措施共同帶來(lái)了約10倍的成本降低和性能提升。
值得強(qiáng)調(diào)的是,DeepSeek獨(dú)特之處在于他們率先實(shí)現(xiàn)了這一成本和性能的突破。
雖然開(kāi)源模型權(quán)重的做法,此前已有Mistral和Llama等先例,但DeepSeek的成就仍然顯著。
考慮到行業(yè)發(fā)展趨勢(shì),到今年年底,相關(guān)成本可能還會(huì)進(jìn)一步下降5倍左右。
R1與o1打平手,「推理」新范式
另一個(gè)引人關(guān)注的問(wèn)題是,R1能夠達(dá)到與o1相當(dāng)?shù)男阅芩剑鴒1僅在去年9月才發(fā)布。
那么,DeepSeek是如何能在如此短的時(shí)間內(nèi),實(shí)現(xiàn)這一跨越的?
其關(guān)鍵在于,「推理」這一新范式的出現(xiàn)。
與傳統(tǒng)范式相比,推理范式具有更快的迭代速度,且能以較少的計(jì)算資源獲得顯著收益。
正如SemiAnalysis在scaling law報(bào)告中指出的,傳統(tǒng)范式主要依賴預(yù)訓(xùn)練,這種方式不僅成本越來(lái)越高,而且越來(lái)越難以實(shí)現(xiàn)穩(wěn)定的性能提升。
新的推理范式,主要通過(guò)合成數(shù)據(jù)生成和在現(xiàn)有模型基礎(chǔ)上進(jìn)行后訓(xùn)練強(qiáng)化學(xué)習(xí)來(lái)提升推理能力,這使得以更低成本獲得快速進(jìn)展成為可能。
隨著業(yè)界逐步掌握這一新范式的擴(kuò)展技巧,高級(jí)分析師預(yù)計(jì)不同模型之間在能力匹配上的時(shí)間差距可能會(huì)進(jìn)一步拉大。
雖然R1在推理性能上確實(shí)達(dá)到了相當(dāng)水平,但它并非在所有評(píng)估指標(biāo)上都占據(jù)優(yōu)勢(shì),在許多場(chǎng)景下其表現(xiàn)甚至不如 o1。
OpenAI最近發(fā)布的o3測(cè)試結(jié)果顯示,其性能提升幾乎呈現(xiàn)垂直上升趨勢(shì)。
這似乎印證了「深度學(xué)習(xí)遇到了瓶頸」的說(shuō)法,只是這個(gè)瓶頸的性質(zhì)與以往不同。
谷歌推理模型,實(shí)力相當(dāng)
在R1引發(fā)廣泛關(guān)注的同時(shí),一個(gè)重要事實(shí)往往被忽視:谷歌在一個(gè)月前就推出了一款更具性價(jià)比的推理模型——Gemini Flash 2.0 Thinking。
這個(gè)模型不僅可以直接使用,而且通過(guò) API 提供了更長(zhǎng)的上下文長(zhǎng)度。
在已公布的基準(zhǔn)測(cè)試中,F(xiàn)lash 2.0 Thinking表現(xiàn)優(yōu)于 R1,盡管基準(zhǔn)測(cè)試并不能完全反映模型的真實(shí)能力。谷歌僅公布了3項(xiàng)基準(zhǔn)測(cè)試結(jié)果,這顯然不足以提供完整的對(duì)比。
即便如此,分析師認(rèn)為谷歌的模型具有很強(qiáng)的穩(wěn)定性,在多個(gè)方面都能與R1分庭抗禮,只是沒(méi)有獲得應(yīng)有的關(guān)注度。
這可能部分源于谷歌欠佳的市場(chǎng)策略和用戶體驗(yàn),也與出乎意料的競(jìng)爭(zhēng)者R1的到來(lái)有關(guān)。
需要強(qiáng)調(diào)的是,這些比較并不會(huì)削弱DeepSeek的突出成就。
正是憑借快速行動(dòng)、充足資金、卓越智慧和明確目標(biāo)的創(chuàng)業(yè)公司特質(zhì),DeepSeek才能在推理模型的競(jìng)爭(zhēng)中超越Meta這樣的科技巨頭。
中國(guó)MLA創(chuàng)新,讓全世界抄作業(yè)
接下來(lái),讓我深入扒一扒DeepSeek所取得的領(lǐng)先實(shí)驗(yàn)室尚未實(shí)現(xiàn)的技術(shù)突破。
SemiAnalysis高級(jí)分析師預(yù)計(jì),DeepSeek發(fā)布的任何技術(shù)改進(jìn),都會(huì)被西方實(shí)驗(yàn)室迅速?gòu)?fù)制。
那么,這些突破性進(jìn)展是什么?
實(shí)際上,主要的架構(gòu)創(chuàng)新與V3模型密切相關(guān),該模型也是R1的基礎(chǔ)模型。
訓(xùn)練(前期和后期)
不是「下一個(gè)token預(yù)測(cè)」,而是「多token預(yù)測(cè)」
DeepSeek V3以前所未見(jiàn)的規(guī)模實(shí)現(xiàn)了多Token預(yù)測(cè)(MTP)技術(shù),這些新增的注意力模塊可以預(yù)測(cè)接下來(lái)的多個(gè) Token,而不是傳統(tǒng)的單個(gè)Token。
這顯著提高了訓(xùn)練階段的模型性能,且這些模塊可以在推理階段移除。
這是一個(gè)典型的算法創(chuàng)新案例,實(shí)現(xiàn)了在更低計(jì)算資源消耗下的性能提升。
其他方面,雖然DeepSeek在訓(xùn)練中采用了FP8精度,但像全球一些頂尖的實(shí)驗(yàn)室已經(jīng)采用這項(xiàng)技術(shù)相當(dāng)長(zhǎng)時(shí)間了。
DeepSeek V3采用了我們常見(jiàn)的「混合專家模型」(MoE)架構(gòu),個(gè)由多個(gè)專門(mén)處理不同任務(wù)的小型專家模型組成的大模型,展現(xiàn)出強(qiáng)大的涌現(xiàn)能力。
MoE模型面臨的主要挑戰(zhàn)是,如何確定將哪個(gè)Token分配給哪個(gè)子模型(即「專家」)。
DeepSeek創(chuàng)新性地采用了一個(gè)「門(mén)控網(wǎng)絡(luò)」(gating network),能夠高效且平衡地將Token路由到相應(yīng)的專家,同時(shí)保持模型性能不受影響。
這意味著路由過(guò)程非常高效,在訓(xùn)練過(guò)程中每個(gè)Token只需要調(diào)整小量參數(shù)(相較于模型整體規(guī)模)。
這既提高了訓(xùn)練效率,又降低了推理成本。
盡管有人擔(dān)心MoE帶來(lái)的效率提升,可能降低投資意愿,但Dario指出,更強(qiáng)大的AI模型帶來(lái)的經(jīng)濟(jì)效益非??捎^,任何節(jié)省的成本都會(huì)立即被投入到開(kāi)發(fā)更大規(guī)模的模型中。
因此,MoE效率提升不會(huì)減少總體投資,反而會(huì)加速AI規(guī)?;M(jìn)程。
當(dāng)前,包括OpenAI、谷歌、Anthropic等一些公司正專注于擴(kuò)大模型的計(jì)算規(guī)模,并提高算法效率。
V3打好了基礎(chǔ),RL立大功
對(duì)于R1而言,它極大地受益于其強(qiáng)大的基礎(chǔ)模型——V3,這在很大程度上要?dú)w功于強(qiáng)化學(xué)習(xí)(RL)。
RL主要關(guān)注兩個(gè)方面:格式化(確保輸出連貫性)以及有用性與安全性(確保模型實(shí)用且無(wú)害)。
模型的推理能力,是在對(duì)合成數(shù)據(jù)集進(jìn)行微調(diào)過(guò)程中自然涌現(xiàn)的,這與o1的情況類似。
值得注意的是,R1論文中并沒(méi)有提及具體的計(jì)算量,因?yàn)榕妒褂玫挠?jì)算資源,會(huì)暴露DeepSeek實(shí)際擁有的GPU數(shù)量遠(yuǎn)超過(guò)其對(duì)外宣稱的規(guī)模。
這種規(guī)模的強(qiáng)化學(xué)習(xí)需要龐大的計(jì)算資源,特別是在生成合成數(shù)據(jù)時(shí)。
談到蒸餾,R1論文最引人注目的發(fā)現(xiàn)可能是,通過(guò)具有推理能力的模型輸出來(lái)微調(diào)較小的非推理模型,使其獲得推理能力。
數(shù)據(jù)集包含了約80萬(wàn)個(gè)樣本,現(xiàn)在研究人員可以利用R1的思維鏈(CoT)輸出創(chuàng)建自己的數(shù)據(jù)集,并借此開(kāi)發(fā)具有推理能力的模型。
未來(lái),我們可能會(huì)看到更多小模型展現(xiàn)出推理能力,從而提升小模型的整體性能。
多頭潛注意力(MLA)
如開(kāi)頭所述,MLA是一項(xiàng)重要的技術(shù)創(chuàng)新,它顯著降低了DeepSeek模型推理成本。
與標(biāo)準(zhǔn)注意力機(jī)制相比,MLA將每次查詢所需的KV緩存減少了約93.3%(KV緩存是Transforme模型中的一種內(nèi)存機(jī)制,用于存儲(chǔ)表示對(duì)話上下文的數(shù)據(jù),從而減少不必要的計(jì)算開(kāi)銷(xiāo))。
KV緩存會(huì)隨著對(duì)話上下文的增長(zhǎng)而不斷擴(kuò)大,這會(huì)造成顯著的內(nèi)存限制。
通過(guò)大幅減少每次查詢所需的KV緩存量,可以相應(yīng)減少每次查詢所需的硬件資源,從而降低運(yùn)營(yíng)成本。
MLA這項(xiàng)創(chuàng)新,特別引起了許多美國(guó)頂級(jí)實(shí)驗(yàn)室的關(guān)注。實(shí)際上,MLA首次在2024年5月發(fā)布的DeepSeek V2中就已推出。
此外,由于H20芯片比H100具有更高的內(nèi)存帶寬和容量,DeepSeek在推理工作負(fù)載方面獲得了更多效率提升。
R1并非真正動(dòng)搖o1技術(shù)優(yōu)勢(shì)
在利潤(rùn)率方面,SemiAnalysis發(fā)現(xiàn)了一個(gè)關(guān)鍵現(xiàn)象:R1并非真正動(dòng)搖了o1的技術(shù)優(yōu)勢(shì),而是以顯著更低的成本實(shí)現(xiàn)了相似的性能水平。
這種現(xiàn)象本質(zhì)上符合市場(chǎng)邏輯,接下來(lái)高級(jí)分析師將提出一個(gè)框架,來(lái)分析未來(lái)價(jià)格機(jī)制的運(yùn)作方式。
技術(shù)能力的提升往往能帶來(lái)更高的利潤(rùn)率。
這種情況與半導(dǎo)體制造業(yè)的發(fā)展模式極其相似,只是節(jié)奏更快。就像臺(tái)積電每當(dāng)率先突破新制程時(shí),都能獲得顯著的定價(jià)優(yōu)勢(shì),因?yàn)樗麄兲峁┝舜饲笆袌?chǎng)上不存在的產(chǎn)品。
其他落后的競(jìng)爭(zhēng)對(duì)手(如三星、英特爾)則會(huì)采取較低的定價(jià)策略,以在性價(jià)比上達(dá)到平衡。
對(duì)芯片制造商(在這個(gè)類比中,即AI實(shí)驗(yàn)室)來(lái)說(shuō),一個(gè)有利條件是他們可以靈活調(diào)整產(chǎn)能分配。
當(dāng)新型號(hào)能提供更優(yōu)的性價(jià)比時(shí),他們可以將產(chǎn)能轉(zhuǎn)移到新型號(hào)的生產(chǎn)上。雖然舊型號(hào)仍會(huì)繼續(xù)支持,但會(huì)相應(yīng)減少其供應(yīng)規(guī)模。
這種策略模式與當(dāng)前AI實(shí)驗(yàn)室的實(shí)際運(yùn)營(yíng)行為高度吻合,也反映了半導(dǎo)體制造業(yè)的基本規(guī)律。
率先破局者,手握定價(jià)權(quán)
這很可能就是AI能力發(fā)展的基本規(guī)律。
率先突破到新的能力層次,將帶來(lái)可觀的價(jià)格溢價(jià),而那些能夠快速追趕到相同能力水平的競(jìng)爭(zhēng)者,只能獲得適度利潤(rùn)。
如果能為特定應(yīng)用場(chǎng)景保留較低能力水平的產(chǎn)品,這些產(chǎn)品仍將繼續(xù)存在。
但能夠追趕到領(lǐng)先能力水平的公司,將隨著每一代技術(shù)更迭而逐漸減少。
所有人見(jiàn)證了,R1取得了領(lǐng)先水平,卻采用了0利潤(rùn)率的定價(jià)策略。
這種顯著的價(jià)格差異不禁讓人質(zhì)疑:為什么OpenAI的價(jià)格如此之高?這是因?yàn)樗麄儾捎昧嘶赟OTA的前沿定價(jià)策略,享受著技術(shù)領(lǐng)先帶來(lái)的溢價(jià)優(yōu)勢(shì)。
甚至就連剛剛上線的o3-mini,網(wǎng)友也不忘暗諷一下模型的定價(jià)
SemiAnalysis預(yù)計(jì),AI未來(lái)的發(fā)展速度,將超過(guò)領(lǐng)先芯片制造業(yè)的發(fā)展節(jié)奏。
快速實(shí)現(xiàn)最新能力意味著可以保持定價(jià)權(quán)(如ChatGPT Pro),而能力落后則意味著更低的定價(jià),主要收益將流向提供token服務(wù)的基礎(chǔ)設(shè)施提供商。
當(dāng)前正處于技術(shù)快速迭代的周期,我們將會(huì)看到產(chǎn)品以前所未有的速度更新?lián)Q代。
只要科技公司能夠通過(guò)scaling能力來(lái)開(kāi)發(fā)出新功能,并在這些功能基礎(chǔ)上創(chuàng)造價(jià)值,就應(yīng)該擁有定價(jià)權(quán)。
否則,開(kāi)源模型市場(chǎng)將在下一代技術(shù)中迅速商品化。
在這種背景下,高級(jí)分析師認(rèn)為,市場(chǎng)存在一個(gè)「根本性的誤解」。
芯片制造業(yè)是目前資本最密集的行業(yè),雖然全球沒(méi)有任何行業(yè)在研發(fā)投入上超過(guò)半導(dǎo)體行業(yè),但這個(gè)最接近的現(xiàn)實(shí)類比實(shí)際上表明——模型公司發(fā)展態(tài)勢(shì)越快,對(duì)高性能芯片的需求也越大。
將AI token與「杰文斯悖論」(技術(shù)進(jìn)步提高效率反而增加資源消耗)進(jìn)行比較時(shí),我們可以發(fā)現(xiàn)深刻的歷史相似性。
最初,業(yè)界并不確定是否能持續(xù)縮小晶體管尺寸,但當(dāng)這一可能性得到證實(shí)后,整個(gè)行業(yè)都致力于將CMOS工藝微縮到極限,并在此基礎(chǔ)上構(gòu)建有意義的功能。
目前,我們正處于整合多個(gè)CoT模型和能力的早期階段。
我們正在像早期縮小晶體管一樣scaling模型規(guī)模,盡管這在技術(shù)進(jìn)步方面可能會(huì)經(jīng)歷一段異常忙碌的時(shí)期,但這種發(fā)展趨勢(shì)對(duì)英偉達(dá)來(lái)說(shuō)無(wú)疑是利好消息。
免費(fèi),還能維持多久?
事實(shí)上,市場(chǎng)一直在尋找一個(gè)突破點(diǎn),而這就成為了他們的選擇。
如果DeepSeek愿意接受零利潤(rùn)率甚至負(fù)利潤(rùn)率運(yùn)營(yíng),他們確實(shí)可以維持如此低的價(jià)格水平。
但顯然,提供前沿token服務(wù)的價(jià)格彈性閾值要高得多??紤]到DeepSeek正在籌備新一輪融資,這種策略對(duì)他們來(lái)說(shuō)是有其戰(zhàn)略意義的。
DeepSeek剛剛在推理能力這個(gè)關(guān)鍵突破點(diǎn)上,打破了OpenAI的高利潤(rùn)率格局。
但這種領(lǐng)先優(yōu)勢(shì)能持續(xù)多久?
SemiAnalysis對(duì)此持懷疑態(tài)度——這更像是一個(gè)開(kāi)源實(shí)驗(yàn)室展示了它能夠達(dá)到閉源實(shí)驗(yàn)室的能力水平。
高級(jí)分析師確實(shí)認(rèn)為,一個(gè)更強(qiáng)大的開(kāi)源實(shí)驗(yàn)室(而DeepSeek現(xiàn)在無(wú)疑是其中表現(xiàn)最好的)對(duì)新興云服務(wù)提供商(Neoclouds)和各類服務(wù)提供商來(lái)說(shuō)是重大利好。
無(wú)論采用開(kāi)源還是閉源模式,計(jì)算資源的集中度仍然至關(guān)重要。
但如果上層服務(wù)提供商選擇免費(fèi)提供其產(chǎn)品,那么提升計(jì)算資源的商業(yè)價(jià)值就成為可能。
這意味著更多的資金將流向計(jì)算資源提供方而非閉源模型提供商,換句話說(shuō),支出將更多地流向硬件設(shè)施而非其他環(huán)節(jié)。
與此同時(shí),軟件企業(yè)也將從這一趨勢(shì)中獲得巨大收益。