青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

中國工程院院士揭秘:DeepSeek究竟厲害在哪里

快科技1月17日消息,在AI領域,DeepSeek帶來的影響力,一點也不亞于“六代機”。那么,DeepSeek究竟厲害在哪里? 據新浪科技報道,今日,中國工程院院士、清華大學計算機系教授鄭緯民指出了DeepSeek其成功出圈的關鍵所在。 目前,業(yè)界對于DeepSeek的喜愛與贊美,主要集中在三個方面。 第一,在技術層面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1兩款模型,分別實現(xiàn)了比肩OpenAI 4o和o1模型的能力。 第二,DeepSeek研發(fā)的這兩款模型成本更低,僅為OpenAI 4o和o1模型的十分之一左右。 第三,DeepSeek把這一兩大模型的技術都開源了,這讓更多的AI團隊,能夠基于最先進同時成本最低的模型,開發(fā)更多的AI原生應用。 DeepSeek是如何實現(xiàn)模型成本的降低的呢?鄭緯民指出,“DeepSeek自研的MLA架構和DeepSeek MOE架構,為其自身的模型訓練成本下降,起到了關鍵作用?!? 他指出,“MLA主要通過改造注意力算子壓縮了KV Cache大小,實現(xiàn)了在同樣容量下可以存儲更多的KV Cache,該架構和DeepSeek-V3模型中FFN 層的改造相配合,實現(xiàn)了一個非常大的稀疏MoE 層,這成為DeepSeek訓練成本低最關鍵的原因。” 據了解,KV Cache是一種優(yōu)化技術,常被用于存儲人工智能模型運行時產生的token的鍵值對(即key- value數值),以提高計算效率。 具體而言,在模型運算過程中,KV cache會在模型運算過程中充當一個內存庫的角色,以存儲模型之前處理過的token鍵值,通過模型運算計算出注意力分數,有效控制被存儲token的輸入輸出,通過“以存換算”避免了多數大模型運算每次都是從第一個token開始運算的重復計算,提升了算力使用效率。 此外,據鄭緯民透露,DeepSeek還解決了“非常大同時非常稀疏的MoE模型”使用的性能難題,而這也成了“DeepSeek訓練成本低最關鍵的原因”。 “DeepSeek比較厲害的是訓練MoE的能力,成為公開MoE模型訓練中第一個能訓練成功這么大MoE的企業(yè)。”鄭緯民說 此外,DeepSeek還充分利用專家網絡被稀疏激活的設計,限制了每個token被發(fā)送往GPU集群節(jié)點(node)的數量,這使得GPU之間通信開銷穩(wěn)定在較低的水位。 早先,圖靈獎得主、主導Meta AI研究的首席科學家楊立昆(Yann LeCun)認為,DeepSeek成功的最大收獲并非中國競爭對其他國家?guī)砀笸{,而是AI開源的價值使任何人都能受益。 “對那些看到DeepSeek表現(xiàn)并認為‘中國在AI領域正超越美國’的人而言,你的解讀錯了”,楊立昆在Threads寫道,“正確解讀應是‘開源模型正超越專有模型’”。