文/王非
一家明星大模型公司,完成創(chuàng)業(yè)首秀。
10月9日,專注于通用人工智能領(lǐng)域的公司月之暗面(Moonshot Al)宣布在“長文本”領(lǐng)域?qū)崿F(xiàn)了突破,推出了首個(gè)支持輸入20萬漢字的大模型moonshot,以及搭載該模型的智能助手產(chǎn)品Kimi Chat。
月之暗面由清華大學(xué)交叉信息學(xué)院、智源青年科學(xué)家楊植麟教授領(lǐng)銜,其在過去五年內(nèi)的NLP領(lǐng)域華人學(xué)者引用排名中位居前10,并在40歲以下排名第一;兩位聯(lián)合創(chuàng)始人周昕宇和吳育昕,也均出身清華。團(tuán)隊(duì)還成功吸引了來自Google、Meta、Amazon等全球領(lǐng)先科技公司的海外人才加入。
來源:月之暗面
今年2月,大模型熱潮初起時(shí),市場就有消息傳出:“楊植麟被寄予厚望,由國內(nèi)最頭部的VC提供孵化式支持?!?/p>
短短4個(gè)月后,成立僅2個(gè)月的月之暗面被曝完成首輪融資。對(duì)此,創(chuàng)始人楊植麟“更正”道,公司已獲得紅杉資本、今日資本、礪思資本等知名機(jī)構(gòu)近20億元投資。目前市場上關(guān)于估值的表述是“不準(zhǔn)確,且偏低的,后續(xù)會(huì)通過官方形式正式對(duì)外公布?!?/p>
楊植麟表示,“目前,團(tuán)隊(duì)成員在50人左右。首輪融資及接下來的新一輪融資,都將主要用于技術(shù)產(chǎn)品的研發(fā),以及團(tuán)隊(duì)擴(kuò)展上?!?/p>
支持20萬字超長輸入,推動(dòng)大模型從LLM進(jìn)入LLLM時(shí)代
據(jù)楊植麟介紹,公司的名稱來源于自己最喜歡的英國搖滾樂隊(duì)發(fā)行的專輯《The Dark Side of The Moon》(月之暗面),今年也正好是該專輯發(fā)行50周年。同時(shí),“月之暗面”也寄予了團(tuán)隊(duì)想要探索宇宙奧秘,探究代表著高難度月球背面的夢(mèng)想。
楊植麟表示,月之暗面的創(chuàng)立初衷就是“好奇心,探索未知”;愿景則是“對(duì)世界有用,與用戶共創(chuàng)”;團(tuán)隊(duì)希望AI能夠“普惠、個(gè)性化”。
長文本打開大模型應(yīng)用的新世界
當(dāng)前大模型輸入長度普遍較低的現(xiàn)狀對(duì)其技術(shù)落地產(chǎn)生了極大制約,例如:目前大火的虛擬角色場景中,由于長文本能力不足,虛擬角色會(huì)輕易忘記重要信息,在Character AI的社區(qū)中用戶就經(jīng)常抱怨“因?yàn)榻巧诙噍唽?duì)話后忘記了自己的身份,所以不得不重新開啟新的對(duì)話”,等這些類似問題。
月之暗面同樣觀察到了“大模型輸入長度受限帶來的應(yīng)用困難”,據(jù)楊植麟介紹,針對(duì)于此,公司實(shí)現(xiàn)了“全球最長,支持20萬字超長輸入,大模型產(chǎn)品進(jìn)入長文本時(shí)代”。他也在現(xiàn)場,以Kimi Chat的一些實(shí)際使用為例,進(jìn)行了詳細(xì)介紹。
出差發(fā)票太多?全部拖進(jìn)Kimi Chat,快速整理成需要的信息:
來源:月之暗面
發(fā)現(xiàn)了新的算法論文時(shí),Kimi Chat能夠直接幫你根據(jù)論文復(fù)現(xiàn)代碼:
來源:月之暗面
輸入整本《月亮與六便士》,讓Kimi Chat和你一起閱讀,幫助你更好的理解和運(yùn)用書本中的知識(shí):
來源:月之暗面
通過上述例子,我們可以看到,當(dāng)模型可以處理的上下文變得更長后,大模型的能力能夠覆蓋到更多使用場景,真正在人們的工作、生活、學(xué)習(xí)中發(fā)揮作用,而且由于可以直接基于全文理解進(jìn)行問答和信息處理,大模型生成的“幻覺”問題也可以得到很大程度地解決。
相比當(dāng)前市面上以英文為基礎(chǔ)訓(xùn)練的大模型服務(wù),Kimi Chat具備較強(qiáng)的多語言能力。例如,Kimi Chat在中文上具備顯著優(yōu)勢(shì),實(shí)際使用效果能夠支持約20萬漢字的上下文,2.5倍于Anthropic公司的Claude-100k(實(shí)測約8萬字),8倍于OpenAI公司的GPT-4-32k(實(shí)測約2.5萬字)。同時(shí),Kimi Chat通過創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)和工程優(yōu)化,在千億參數(shù)下實(shí)現(xiàn)了無損的長程注意力機(jī)制,不依賴于滑動(dòng)窗口、降采樣、小模型等對(duì)性能損害較大的“捷徑”方案。
目前,月之暗面的智能助手產(chǎn)品Kimi Chat已開放了內(nèi)測。
從LLM進(jìn)入LLLM時(shí)代
楊植麟此前曾表示,無論是文字、語音還是視頻,對(duì)海量數(shù)據(jù)的無損壓縮可以實(shí)現(xiàn)高程度的智能。
無損壓縮的進(jìn)展曾極度依賴「參數(shù)為王」模式,該模式下壓縮比直接與參數(shù)量相關(guān),這極大增加了模型的訓(xùn)練成本和應(yīng)用門檻,而月之暗面認(rèn)為:大模型的能力上限(即無損壓縮比)是由單步能力和執(zhí)行的步驟數(shù)共同決定的。單步能力與參數(shù)量正相關(guān),而執(zhí)行步驟數(shù)即上下文長度。
月之暗面相信,更長的上下文長度可以為大模型應(yīng)用帶來全新的篇章,促使大模型從 LLM時(shí)代進(jìn)入Long LLM (LLLM)時(shí)代:
1.每個(gè)人都可以擁有一個(gè)具備終身記憶的虛擬伴侶,它可以在生命的長河中記住與你交互的所有細(xì)節(jié),建立長期的情感連接。
2.每個(gè)人都可以擁有一個(gè)在工作環(huán)境與你共生(co-inhabit)的助手,它知曉公域( 互聯(lián)網(wǎng))和私域(企業(yè)內(nèi)部文檔)的所有知識(shí),并基于此幫助你完成OKR
3.每個(gè)人都可以擁有一個(gè)無所不知的學(xué)習(xí)向?qū)?,不僅能夠準(zhǔn)確地給你提供知識(shí),更能夠引導(dǎo)你跨越學(xué)科間的壁壘,更加自由地探索與創(chuàng)新。
當(dāng)然,更長的上下文長度只是月之暗面在下一代大模型技術(shù)上邁出的第一步。月之暗面計(jì)劃憑借該領(lǐng)域的領(lǐng)先技術(shù),加速大模型技術(shù)的創(chuàng)新和應(yīng)用落地。
清華學(xué)霸二次創(chuàng)業(yè),曾參與悟道盤古等多個(gè)大模型項(xiàng)目
月之暗面能在成立之初就獲得頭部VC押注,與楊植麟本人的“學(xué)霸”身份、豐富經(jīng)歷,關(guān)系匪淺。
月之暗面創(chuàng)始人楊植麟
早在高中時(shí)期,楊植麟就表現(xiàn)優(yōu)異,他在沒有任何編程基礎(chǔ)的情況下,被選拔進(jìn)信息學(xué)奧林匹克競賽培訓(xùn)班,最終順利通過競賽保送清華大學(xué)。
清華求學(xué)時(shí),楊植麟師從清華大學(xué)計(jì)算機(jī)系知識(shí)工程實(shí)驗(yàn)室(KEG)帶頭人,智源研究院學(xué)術(shù)副院長、悟道項(xiàng)目負(fù)責(zé)人唐杰教授。最終他以滿分成績通過所有程序設(shè)計(jì)課程,并以年級(jí)第一的成績畢業(yè)。
隨后在2015年,楊植麟進(jìn)入卡內(nèi)基梅隆大學(xué)(CMU)語言技術(shù)研究所(LTI),跟隨蘋果公司AI負(fù)責(zé)人Ruslan Salakhutdinov和Google AI智能首席科學(xué)家William W. Cohen攻讀博士學(xué)位。
畢業(yè)后,楊植麟曾效力于谷歌大腦研究院和Meta(Facebook)人工智能研究院,是Transformer-XL和XLNet的第一作者。其中,XLNet模型曾在18項(xiàng)自然語言任務(wù)中取得了好于谷歌BERT的效果,是當(dāng)時(shí)NLP領(lǐng)域熱門的國際前沿模型之一。
2018年,作為第一作者,楊植麟與圖靈獎(jiǎng)得主楊樂昆(Yann LeCun)合作發(fā)表論文;與圖靈獎(jiǎng)得主約書亞·本吉奧(Yoshua Bengio)合作發(fā)表論文。此外,他還曾與Quoc V. Le(Google Brain創(chuàng)始人之一)、何愷明(Kaiming He)等合寫過論文。
據(jù)不完全統(tǒng)計(jì),楊植麟曾在ICLR、NeurIPS、ICML、ACL、EMNLP等計(jì)算機(jī)頂會(huì)發(fā)表論文20余篇,研究成果累計(jì)Google Shcolar引用超過17000。
目前,楊植麟還是清華大學(xué)交叉信息研究院的助理教授,研究方向:大規(guī)模預(yù)訓(xùn)練,自然語言處理,自然語言理解與生成,少樣本學(xué)習(xí),零樣本學(xué)習(xí),多模態(tài)學(xué)習(xí)。
現(xiàn)年31歲的楊植麟,在大模型領(lǐng)域,可謂聲名顯赫:循環(huán)智能、智譜AI、智源研究院……到處都有他的名字和身影。
同時(shí),楊植麟和團(tuán)隊(duì)也曾作為核心研發(fā)成員,參與Google Bard、Gemini、Einstein、盤古、悟道等大模型的研發(fā),發(fā)明包括TransformerXL、XLNet、RoPE、Detectron2、Group Normalization在內(nèi)的AI領(lǐng)域里程碑式的成果,被諸如Google PALM、LLaMa等模型采用。
如今,經(jīng)驗(yàn)豐富的楊植麟選擇自主創(chuàng)業(yè),自然受到各方的緊密關(guān)注,以及知名投資方的熱情追捧。
天眼查App信息顯示,月之暗面由楊植麟持股78.97%,擁有絕對(duì)控制權(quán)。
來源:天眼查
清華同門組隊(duì),成員堪稱全明星陣容
圍繞在楊植麟身邊的月之暗面創(chuàng)業(yè)伙伴,同樣實(shí)力非凡,不容小覷。
月之暗面聯(lián)合創(chuàng)始人周昕宇持有公司10%股份,他和楊植麟、張宇韜,是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系2011級(jí)本科的同學(xué)。
在大四時(shí),周昕宇就加入各方面都符合他標(biāo)準(zhǔn)的曠視實(shí)習(xí),并在畢業(yè)之后正式加入,工作內(nèi)容是算法量產(chǎn),就是要把算法的生產(chǎn)效率提高很多倍。
工作期間,他和曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨,攜手研究移動(dòng)端模型,以共同一作的身份撰寫《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》,中標(biāo)CVPR。ShuffleNet后來影響了包括蘋果3D人臉解鎖在內(nèi)的各種手機(jī)毫秒級(jí)人臉解鎖技術(shù)。
來源:清華校友總會(huì)
月之暗面聯(lián)合創(chuàng)始人周昕宇
月之暗面聯(lián)合創(chuàng)始人吳育昕作為持股5.96%的第三大股東,同樣來頭不小。
吳育昕畢業(yè)于清華大學(xué)與卡耐基梅隆大學(xué),曾獲2018年歐洲計(jì)算機(jī)視覺會(huì)議(ECCV)最佳論文提名。他是Meta(Facebook)員工,系公司人工智能實(shí)驗(yàn)室FAIR團(tuán)隊(duì)的一員,曾和隊(duì)員何愷明共同提出了組歸一化(Group Normalization,簡稱 GN)的方法。
在2018年10月的GeekPwn國際安全極客大賽上,IYSWIM是6個(gè)參賽團(tuán)隊(duì)中,唯一一個(gè)破解人臉識(shí)別算法的團(tuán)隊(duì)。吳育昕當(dāng)時(shí)以IYSWIM團(tuán)隊(duì)的身份參賽,據(jù)他介紹,“自己(以個(gè)人名義報(bào)名參賽,有名隊(duì)友沒有來到現(xiàn)場)用了谷歌的FaceNet開源代碼模型攻破了該算法”。
來源:將門創(chuàng)投
此外,楊植麟的同門師兄張宇韜,目前持有公司5%股份,最后0.08%股份由汪箴持有。
公開資料顯示,張宇韜本碩均在清華大學(xué)計(jì)算機(jī)系就讀。他的研究方向是異構(gòu)數(shù)據(jù)融合和知識(shí)圖譜構(gòu)建,在KDD、CIKM等計(jì)算機(jī)頂會(huì)上發(fā)表多篇文章。他作為技術(shù)負(fù)責(zé)人,參與了科技大數(shù)據(jù)分析平臺(tái)AMiner的研發(fā)。
汪箴則畢業(yè)于復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)系,后就讀新加坡南洋理工大學(xué)計(jì)算機(jī)工程系,主要研究工作面向AI在鑒證科學(xué)上的應(yīng)用。此前,他曾在Google擔(dān)任高級(jí)軟件工程師/技術(shù)主管,開發(fā)移動(dòng)端網(wǎng)頁搜索、社交平臺(tái)等產(chǎn)品。后又擔(dān)任新加坡AI技術(shù)驅(qū)動(dòng)獨(dú)角獸領(lǐng)創(chuàng)集團(tuán)(ADVANCE.AI)技術(shù)委員會(huì)負(fù)責(zé)人/技術(shù)副總裁,還有過投資機(jī)構(gòu)的從業(yè)經(jīng)歷。
如果說清華大學(xué)撐起了大模型創(chuàng)業(yè)的半壁江山,那么唐杰教授更是中堅(jiān)力量,智譜AI、智源研究院、月之暗面、循環(huán)智能,這些公司都與其關(guān)系深厚。
談及與師兄弟甚至師父“同場競技”,楊植麟表示,“我覺得更多的倒不是競技,而是大家共同在這個(gè)領(lǐng)域作出各自的貢獻(xiàn)。因?yàn)檫@里面的空間非常大,很難有一家公司可以把所有的事情都做了,大家的側(cè)重點(diǎn)各有不同。像月之暗面就是聚焦在C端進(jìn)行嘗試,而且每一家公司的技術(shù)路線也是不一樣的,這里面其實(shí)蘊(yùn)藏著巨大的機(jī)會(huì)。”
除了技術(shù)層面的優(yōu)勢(shì),月之暗面也在產(chǎn)品人才上做足了準(zhǔn)備。據(jù)楊植麟介紹,團(tuán)隊(duì)中有著擁有幾億DAU經(jīng)驗(yàn),擅長在C端尋找應(yīng)用場景的產(chǎn)品人才。而這也是現(xiàn)階段,月之暗面聚焦C端用戶的底氣所在。