青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

兩大可商用開源大模型同時發(fā)布!性能不輸LLaMA,羊駝家族名字都不夠用了

從Meta的LLaMA發(fā)展出的羊駝家族一系列大模型,已成為開源AI重要力量。

但LLamA開源了又沒全開,只能用于研究用途,還得填申請表格等,也一直被業(yè)界詬病。

好消息是,兩大對標(biāo)LLaMA的完全開源項目同時有了新進(jìn)展。

可商用開源大模型來了,還一下來了倆:

MosaicML推出MPT系列模型,其中70億參數(shù)版在性能測試中與LLaMA打個平手。

Together的RedPajama(紅睡衣)系列模型,30億參數(shù)版在RTX2070游戲顯卡上就能跑。

對于這些進(jìn)展,特斯拉前AI主管Andrej Karpathy認(rèn)為,開源大模型生態(tài)有了寒武紀(jì)大爆發(fā)的早期跡象。

MPT,與LLaMA五五開

MPT系列模型,全稱MosaicML Pretrained Transformer,基礎(chǔ)版本為70億參數(shù)。

MPT在大量數(shù)據(jù)(1T tokens)上訓(xùn)練,與LLaMA相當(dāng),高于StableLM,Pythia等其他開源模型。

支持84k tokens超長輸入,并用FlashAttention和FasterTransformer方法針對訓(xùn)練和推理速度做過優(yōu)化。

在各類性能評估中,與原版LLaMA不相上下。

除了MPT-7B Base基礎(chǔ)模型外還有三個變體。

MPT-7B-Instruct,用于遵循簡短指令。

MPT-7B-Chat,用于多輪聊天對話。

MPT-7B-StoryWriter-65k+,用于閱讀和編寫故事,支持65k tokens的超長上下文,用小說數(shù)據(jù)集微調(diào)。

MosaicML由前英特爾AI芯片項目Nervana負(fù)責(zé)人Naveen Rao創(chuàng)辦。

該公司致力于降低訓(xùn)練神經(jīng)網(wǎng)絡(luò)的成本,推出的文本和圖像生成推理服務(wù)成本只有OpenAI的1/15。

RedPajama,2070就能跑

RedPajama系列模型,在5TB的同名開源數(shù)據(jù)上訓(xùn)練而來(前面提到的MPT也是用此數(shù)據(jù)集訓(xùn)練)。

除70億參數(shù)基礎(chǔ)模型外,還有一個30億參數(shù)版本,可以在5年前發(fā)售的RTX2070游戲顯卡上運行。

目前70億版本完成了80%的訓(xùn)練,效果已經(jīng)超過了同規(guī)模的Pythia等開源模型,略遜于LLamA。

預(yù)計在完成1T tokens的訓(xùn)練后還能繼續(xù)改進(jìn)。

背后公司Together,由蘋果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,蘇黎世聯(lián)邦理工大學(xué)助理教授張策等人聯(lián)合創(chuàng)辦。

開源模型發(fā)布后,他們的近期目標(biāo)是繼續(xù)擴(kuò)展開源RedPajama數(shù)據(jù)集到兩倍規(guī)模。

One More Thing

來自南美洲的無峰駝類動物一共4種,已被各家大模型用完了。

Meta發(fā)布LLaMA之后,斯坦福用了Alpaca,伯克利等單位用了Alpaca,Joseph Cheung等開發(fā)者團(tuán)隊用了Guanaco。

以至于后來者已經(jīng)卷到了其他相近動物,比如IBM的單峰駱駝Dromedary,Databricks的Dolly來自克隆羊多莉。

國人研究團(tuán)隊也熱衷于用古代傳說中的神獸,如UCSD聯(lián)合中山大學(xué)等推出的白澤。

港中文等推出的鳳凰……

最絕的是哈工大基于中文醫(yī)學(xué)知識的LLaMA微調(diào)模型,命名為華駝


相關(guān)內(nèi)容