文|白 鴿
“AI for Science的底層邏輯,與現(xiàn)在大語(yǔ)言模型的訓(xùn)練邏輯并不一樣。”深勢(shì)科技技術(shù)總監(jiān)陸金譚直言,當(dāng)前人工智能在科學(xué)研究領(lǐng)域與大語(yǔ)言模型在其他行業(yè)中應(yīng)用的邏輯并不相同。
業(yè)內(nèi)皆知,大語(yǔ)言模型訓(xùn)練依賴于高質(zhì)量數(shù)據(jù)“喂養(yǎng)”,數(shù)據(jù)越多,大語(yǔ)言模型能力越強(qiáng)。但科學(xué)研究的一些特定領(lǐng)域,數(shù)據(jù)量相對(duì)稀少。比如某些特定類型的蛋白質(zhì)結(jié)構(gòu),可能需要數(shù)年時(shí)間才能獲得幾百條高質(zhì)量的實(shí)驗(yàn)數(shù)據(jù)。
這也就意味著,AI在科研領(lǐng)域的應(yīng)用,需要用比較少的數(shù)據(jù),來(lái)達(dá)到更好的模型效果。
那么,AI究竟如何改變科學(xué)?又是如何在其中跑通商業(yè)模式?作為AI for Science的代表企業(yè)之一,深勢(shì)科技則給出了自己的思考和解法。
在傳統(tǒng)科學(xué)計(jì)算中,如果想要通過(guò)分子和原子的結(jié)構(gòu)信息去預(yù)測(cè)其物理性質(zhì),通常需要結(jié)合實(shí)際問(wèn)題進(jìn)行微觀計(jì)算。當(dāng)前業(yè)界在實(shí)現(xiàn)這種跨尺度的計(jì)算能力方面仍然較為欠缺,更多依賴經(jīng)驗(yàn)判斷和實(shí)驗(yàn)驗(yàn)證。
與此同時(shí),計(jì)算體系規(guī)模的擴(kuò)大,傳統(tǒng)科學(xué)計(jì)算的計(jì)算量呈指數(shù)級(jí)增長(zhǎng),經(jīng)常是上萬(wàn),甚至是上億原子規(guī)模體系的計(jì)算量,如果完全依賴常規(guī)物理模型進(jìn)行計(jì)算,整體的計(jì)算時(shí)間周期可能會(huì)非常長(zhǎng)。
“深勢(shì)科技能夠讓模型產(chǎn)出接近于物理模型精度的計(jì)算效果,同時(shí)大大提升計(jì)算性能?!标懡鹱T說(shuō)道,“我們通過(guò)AI手段去擬合這些物理方法,把之前可能需要大計(jì)算量的事情變得更快。”
以圖像識(shí)別為例,其核心在于分析圖片的像素信息,通過(guò)引入卷積神經(jīng)網(wǎng)絡(luò),能夠提取圖片中的局部特征,將原始圖片分解為不同的特征圖,并通過(guò)特征組合進(jìn)行近似求解,這其實(shí)是一個(gè)降維分析。
事實(shí)上,AI在科學(xué)領(lǐng)域也屬于降維應(yīng)用,通過(guò)模型強(qiáng)大能力,尤其是在涉及跨尺度計(jì)算的早期階段,通過(guò)其強(qiáng)大的建模能力降低計(jì)算復(fù)雜度。同時(shí),基于多模態(tài)大模型能力,還可以實(shí)現(xiàn)對(duì)分子結(jié)構(gòu)、物理性質(zhì)、實(shí)驗(yàn)數(shù)據(jù)等多種類型的數(shù)據(jù)進(jìn)行多維度的分析和預(yù)測(cè)。
比如在藥物發(fā)現(xiàn)過(guò)程中,通常首先需要對(duì)蛋白質(zhì)結(jié)構(gòu)和靶點(diǎn)進(jìn)行分析,接著在數(shù)十萬(wàn)甚至上百萬(wàn)的化合物庫(kù)中,篩選出與靶點(diǎn)具有高親和力的候選化合物。通常會(huì)進(jìn)行多維度的評(píng)估,包括親和力分析、藥物化學(xué)性質(zhì)(如毒性、吸收、代謝等特性)的預(yù)測(cè)和評(píng)估。
“在AI for Science領(lǐng)域,大模型能夠支持跨尺度計(jì)算的關(guān)鍵在于其龐大的參數(shù)規(guī)模和強(qiáng)大的泛化能力。模型的巨大參數(shù)量使其能夠捕捉復(fù)雜的物理、化學(xué)和生物現(xiàn)象,而強(qiáng)泛化能力則幫助模型在不同領(lǐng)域的科學(xué)問(wèn)題間實(shí)現(xiàn)靈活應(yīng)用?!标懡鹱T表示,“基礎(chǔ)模型可以基于藥物的微觀結(jié)構(gòu)預(yù)測(cè)其相關(guān)性質(zhì)。當(dāng)將該模型遷移應(yīng)用到材料領(lǐng)域時(shí),它同樣能夠通過(guò)分析材料的微觀結(jié)構(gòu),預(yù)測(cè)材料在不同溫度和壓強(qiáng)下的穩(wěn)定性及其他物理狀態(tài)。”
因此,深勢(shì)科技對(duì)AI for Science里面基礎(chǔ)通用模型的理解,更多的在于有一套基礎(chǔ)預(yù)訓(xùn)練模型,這個(gè)模型通過(guò)微調(diào)可以被應(yīng)用到各個(gè)工業(yè)領(lǐng)域進(jìn)行問(wèn)題求解。
深勢(shì)科技目前研究的幾個(gè)基礎(chǔ)模型,可以在有限數(shù)據(jù)增訓(xùn)下,仍然能獲得較好的結(jié)果,后續(xù)可以再基于獲得的更高質(zhì)量的數(shù)據(jù)去進(jìn)一步優(yōu)化和修正。在這個(gè)模型體系下,讓AI去學(xué)習(xí)基礎(chǔ)的科學(xué)原理本身,通過(guò)少量的領(lǐng)域數(shù)據(jù)進(jìn)行增訓(xùn)就已經(jīng)能得到不錯(cuò)的效果,這跟大語(yǔ)言模型稍有區(qū)別。
陸金譚對(duì)光錐智能說(shuō)道,“科學(xué)計(jì)算領(lǐng)域數(shù)據(jù)來(lái)源并不廣泛,公用數(shù)據(jù)集并不多,所以我們現(xiàn)在很大一部分工作,是如何在小數(shù)據(jù)集基礎(chǔ)上,讓模型的訓(xùn)練效果越來(lái)越好?!?/p>
過(guò)去兩年,深勢(shì)科技也成功推出了一系列行業(yè)大模型,如DPA分子模擬大模型、Uni-Mol 3D分子構(gòu)象大模型、Uni-Fold蛋白折疊大模型、Uni-RNA核酸結(jié)構(gòu)大模型、Uni-Dock高性能藥物分子對(duì)接引擎,以及Uni-SMART科學(xué)文獻(xiàn)多模態(tài)大語(yǔ)言模型等。
據(jù)陸金譚表示,目前深勢(shì)科技在材料領(lǐng)域和藥物領(lǐng)域一共有上百個(gè)模型,這些模型也已經(jīng)成功集成到深勢(shì)科技的產(chǎn)品平臺(tái)中。與此同時(shí),深勢(shì)科技也與行業(yè)中領(lǐng)先的數(shù)十家藥企達(dá)成了戰(zhàn)略合作,2023年也實(shí)現(xiàn)商業(yè)化的突破,營(yíng)收過(guò)億。
目前,深勢(shì)科技的業(yè)務(wù)已經(jīng)覆蓋高校智慧教育、生物醫(yī)藥研發(fā),以及電池新材料。
不過(guò),按照現(xiàn)階段AI for Science的算法分級(jí),整體發(fā)展仍處于L2階段,即接近實(shí)驗(yàn)精度,更多仍是以人為本,通過(guò)模型計(jì)算來(lái)輔助人類,減輕壓力。
到了L3階段,AI則能夠直接給出結(jié)果,在某些場(chǎng)景中,則可以直接替代掉人類實(shí)驗(yàn)。
想要從L2邁入L3,“主要的難點(diǎn)在于各環(huán)節(jié)精度需要達(dá)到一定的高度,同時(shí)各環(huán)節(jié)中的算法如何進(jìn)行整合,也是一大挑戰(zhàn)?!标懡鹱T如此說(shuō)道。
面向未來(lái),陸金譚認(rèn)為,AI for Science市場(chǎng)空間足夠大,不管是教育科研、生物醫(yī)藥,還是電池材料,AI的加入至少在實(shí)驗(yàn)層面,就能夠?qū)嶋H的解決很多根本性的問(wèn)題,為賦能產(chǎn)業(yè)、前沿探索等提供更多的思路和切入點(diǎn)。
以下為光錐智能與深勢(shì)科技技術(shù)總監(jiān)陸金譚詳細(xì)對(duì)話內(nèi)容(經(jīng)光錐智能刪改編輯):
深勢(shì)科技用AI
為科學(xué)研發(fā)提質(zhì)增效
Q:大模型改變了自然語(yǔ)言處理、改變了視頻、圖片生成,是怎么改變科學(xué)的?
A:大語(yǔ)言模型在挖掘文獻(xiàn)信息、專利信息等領(lǐng)域已開(kāi)始應(yīng)用,我們將其稱為文獻(xiàn)大模型,我們?cè)谶@個(gè)領(lǐng)域也有了一些研究成果,除了用它挖掘比較專業(yè)的化合物信息外,還會(huì)做一些圖片、圖表解讀等這種多模態(tài)的應(yīng)用。
在傳統(tǒng)的科學(xué)計(jì)算中,經(jīng)常會(huì)遇到的問(wèn)題是從微觀到宏觀尺度,有不同的物理模型進(jìn)行問(wèn)題求解,但在一些跨尺度的計(jì)算場(chǎng)景中能力還比較欠缺。比如我們通過(guò)分子原子的結(jié)構(gòu)信息,想要去預(yù)測(cè)它的宏觀性質(zhì),就需要跨尺度建模的能力。
人工智能包括大模型,可以做到跨尺度建模,通過(guò)對(duì)這些物理模型的學(xué)習(xí),再應(yīng)用到具體的問(wèn)題中,就能夠很好的解決這些問(wèn)題。
我們通常需要進(jìn)行大通量的計(jì)算,經(jīng)常是上萬(wàn)甚至是上億原子規(guī)模體系的計(jì)算,如果基于物理模型計(jì)算,時(shí)間周期會(huì)比較長(zhǎng)。深勢(shì)科技這邊做的事情,就是能夠讓模型產(chǎn)出接近于物理模型精度的計(jì)算效果,同時(shí)能夠大大提升計(jì)算性能。
Q:上億原子體系規(guī)模的計(jì)算,如何換算到大模型領(lǐng)域的計(jì)算,大概是什么樣的計(jì)算量?
A:在微觀尺度下,兩個(gè)原子之間的相互作用可以通過(guò)物理模型來(lái)分析,例如通過(guò)經(jīng)典力學(xué)或量子力學(xué)方程,計(jì)算它們之間的相互作用力和運(yùn)動(dòng)軌跡。這時(shí),計(jì)算只需要考慮兩個(gè)原子的相互影響,問(wèn)題相對(duì)簡(jiǎn)單。然而,隨著系統(tǒng)中的原子數(shù)量增加,情況變得更加復(fù)雜。例如,當(dāng)引入第三個(gè)原子時(shí),除了考慮每個(gè)原子之間的兩兩相互作用,還要分析三者之間的多體效應(yīng)。這時(shí),原子之間的相互作用和軌跡不僅取決于兩個(gè)原子,而是由整個(gè)系統(tǒng)的狀態(tài)共同決定,計(jì)算量呈非線性增長(zhǎng)??茖W(xué)家們通常會(huì)引入近似算法,如密度泛函理論或分子動(dòng)力學(xué)模擬,來(lái)有效處理不同尺度下的計(jì)算。
而我們AI在早期做的事情,其實(shí)是通過(guò)AI的手段去擬合這些物理方程,提高計(jì)算性能??梢灶惐葓D像識(shí)別,其核心的點(diǎn)在于它去分析各種像素,我們加入卷積神經(jīng)網(wǎng)絡(luò)后,它會(huì)把一張圖片拆成一個(gè)個(gè)特征圖片,然后進(jìn)行近似求解,這其實(shí)是一個(gè)降維的分析。我們?nèi)斯ぶ悄茉诳茖W(xué)計(jì)算領(lǐng)域早期做的,也可以看作是一個(gè)降維的動(dòng)作,即把之前可能需要大計(jì)算量的事情變得更快。
Q:傳統(tǒng)AI時(shí)候的計(jì)算方式和大模型來(lái)了之后,中間有什么區(qū)別?
A:大模型的定義相對(duì)模糊,一般以參數(shù)量為指標(biāo),參數(shù)越多,計(jì)算量越大。對(duì)我們來(lái)說(shuō),更多的是提供多尺度的計(jì)算。我們目前的預(yù)訓(xùn)練模型 Uni-Mol,基于分子和原子的三維結(jié)構(gòu),預(yù)測(cè)相關(guān)物理性質(zhì),建立構(gòu)效關(guān)系,直接求解,過(guò)去的做法往往依賴實(shí)驗(yàn)和經(jīng)驗(yàn)來(lái)預(yù)測(cè)。這種方法結(jié)合了不同尺度上的計(jì)算,為材料科學(xué)等領(lǐng)域提供了全新的計(jì)算手段。
我們對(duì)待大模型一般會(huì)更強(qiáng)調(diào)模型泛化能力。在AI for Science領(lǐng)域,是相對(duì)通用的。比如基礎(chǔ)模型,可以基于微觀結(jié)構(gòu)去預(yù)測(cè)藥物相關(guān)的一些性質(zhì),將這個(gè)模型做一些遷移,則可以應(yīng)用到材料領(lǐng)域,但關(guān)心的性質(zhì)可能就不是藥化性質(zhì),而是在不同溫度不同壓強(qiáng)下它的狀態(tài),所以我們對(duì)AI for Science里面基礎(chǔ)通用模型的理解更多是一套基礎(chǔ)的預(yù)訓(xùn)練模型,這個(gè)模型通過(guò)微調(diào)可以被應(yīng)用到各個(gè)工業(yè)領(lǐng)域進(jìn)行問(wèn)題求解。
Q:多模態(tài)在其中主要起到哪些作用?
A:涉及將不同類型的數(shù)據(jù),如分子結(jié)構(gòu)、物理性質(zhì)、實(shí)驗(yàn)數(shù)據(jù)等,結(jié)合起來(lái)進(jìn)行綜合分析。比如在藥物發(fā)現(xiàn)過(guò)程中,通常首先需要對(duì)蛋白質(zhì)結(jié)構(gòu)和靶點(diǎn)進(jìn)行分析,接著在幾十萬(wàn)甚至上百萬(wàn)的化合物庫(kù)中,篩選出與靶點(diǎn)具有高親和度的化合物,而在篩選的過(guò)程中,可能包含親和度分析、藥化性質(zhì)分析,是否有毒、是否利于人體吸收等,可能是有多個(gè)維度的分析。所以想要達(dá)到一個(gè)比較好的篩選效果,是需要綜合多個(gè)角度、多種性質(zhì)去分析。
常見(jiàn)的圖片、視頻等的多模態(tài)問(wèn)題,可能更貼近我們?cè)谖墨I(xiàn)數(shù)據(jù)挖掘中的多模態(tài)應(yīng)用,比如在論文中需要不僅讀取論文中的文字信息,還包括圖片信息,需要對(duì)圖片信息進(jìn)行深度挖掘,再去跟文字信息進(jìn)行整合,最后輸出結(jié)果。在文獻(xiàn)中,我們也會(huì)應(yīng)用這種常見(jiàn)的多模態(tài)能力。
Q:AI for Science領(lǐng)域?qū)δP蛿?shù)據(jù)的需求到底有多大?
A:不同領(lǐng)域不盡相同,當(dāng)然越多越好,這里也有獲取難度的問(wèn)題。舉個(gè)例子,在生物醫(yī)藥領(lǐng)域的細(xì)分應(yīng)用和電池領(lǐng)域的細(xì)分應(yīng)用,數(shù)據(jù)獲取難度就不一樣,研發(fā)和驗(yàn)證周期長(zhǎng)的行業(yè),數(shù)據(jù)產(chǎn)出會(huì)相對(duì)少,數(shù)據(jù)的絕對(duì)數(shù)量就有限。像某些特定類型的蛋白質(zhì)結(jié)構(gòu),可能幾年才有幾百條,但在其他領(lǐng)域,數(shù)據(jù)肯定不止這些。
但基礎(chǔ)物理模型能夠生成更多數(shù)據(jù),我們目前研究的幾個(gè)基礎(chǔ)模型,可以在有限數(shù)據(jù)訓(xùn)練下,仍然能獲得較好的結(jié)果,后續(xù)可以再基于獲得的更高質(zhì)量的數(shù)據(jù)去優(yōu)化和修正。在我們這個(gè)模型體系下,讓AI去學(xué)習(xí)基礎(chǔ)的科學(xué)原理本身,通過(guò)少量的領(lǐng)域數(shù)據(jù)進(jìn)行增訓(xùn)就已經(jīng)能得到不錯(cuò)的效果,這跟大語(yǔ)言模型稍有區(qū)別。
Q:如何讓AI學(xué)習(xí)基礎(chǔ)科學(xué)邏輯,然后去做解決具體的應(yīng)用難題?
A:一般是通過(guò)一些物理模型去直接進(jìn)行運(yùn)算,然后產(chǎn)出的結(jié)果數(shù)據(jù)進(jìn)行訓(xùn)練,之后去模擬物理模型。
Q:基礎(chǔ)大模型到各垂類大模型之間的關(guān)系是什么樣的?基礎(chǔ)大模型是自己訓(xùn)練,還是使用第三方開(kāi)源大模型?
A:不同場(chǎng)景不太一樣,如果指的是大語(yǔ)言模型,更多應(yīng)用在文獻(xiàn)解讀,比如論文解讀?;镜膽?yīng)用對(duì)于單篇論文解讀,出于成本考慮,會(huì)用到一些通用大模型幫我解讀論文。如果說(shuō)要去進(jìn)行多篇論文的解讀,甚至是在我們的大的論文庫(kù)里面進(jìn)行整體的檢索,也包括專利的檢索和分析的時(shí)候,那我們會(huì)用到自研的文獻(xiàn)模型去進(jìn)行更細(xì)致的論文解讀。
所以我們還是奔著用戶的產(chǎn)品去做,可能看哪個(gè)模型更適合我們的產(chǎn)品,也會(huì)出于成本的考慮,去做出選擇。
現(xiàn)在很多模型我們更多稱之為是預(yù)訓(xùn)練模型,比如我們?nèi)ツ臧l(fā)布的那個(gè)DPA,就是計(jì)算不同元素原子間勢(shì)函數(shù)的一套預(yù)訓(xùn)練模型,前段時(shí)間也開(kāi)放OpenLAM大原子模型計(jì)劃,希望能夠通過(guò)去發(fā)動(dòng)一些開(kāi)源的力量,能夠一起去貢獻(xiàn)和共享數(shù)據(jù),把模型訓(xùn)練的更成熟。
Q:深勢(shì)科技現(xiàn)在模型數(shù)量大概有多少?
A:我們現(xiàn)在材料領(lǐng)域和藥物領(lǐng)域加起來(lái)有上百個(gè)模型。
營(yíng)收破億,牽手?jǐn)?shù)十家藥企
深勢(shì)科技的商業(yè)模式
Q:能否分享一下深勢(shì)科技在AI醫(yī)藥領(lǐng)域最新的研發(fā)進(jìn)展?
A:醫(yī)藥這塊其實(shí)我們現(xiàn)在主要關(guān)注于臨床前的研究,覆蓋了幾乎所有臨床前的計(jì)算場(chǎng)景,比如從早期的靶點(diǎn)發(fā)現(xiàn)、蛋白質(zhì)的結(jié)構(gòu)分析,到靶點(diǎn)分析、分子篩選、親和度的分析,再到性質(zhì)的預(yù)測(cè)等等,這一系列的環(huán)節(jié)里面包含了很多這樣的計(jì)算手段,我們現(xiàn)在都有落地的算法。
結(jié)合醫(yī)藥場(chǎng)景,我們把這些所有的算法包裝成一個(gè)產(chǎn)品,就是我們的藥物設(shè)計(jì)平臺(tái)Hermite,我們現(xiàn)在基本跟國(guó)內(nèi)的頭部的前50家藥企業(yè)在不同的領(lǐng)域都有合作,主要涉及三個(gè)方面,一個(gè)是biotech(生物科技),一個(gè)是CRO(臨床研究機(jī)構(gòu)),一個(gè)pharma(制藥公司),都有各自代表的企業(yè)。
上周我們剛與國(guó)內(nèi)一家上市公司-東陽(yáng)光簽訂合作,它是做流感藥奧司他韋的企業(yè),也是剛剛拿到了美國(guó)三個(gè)第一的認(rèn)證,我們接下來(lái)會(huì)和他們?cè)诎悬c(diǎn)相關(guān)業(yè)務(wù)進(jìn)行合作。
除了像東陽(yáng)光這種比較典型的生物醫(yī)藥領(lǐng)域的企業(yè)之外,我們其實(shí)還跟很多在做藥物研發(fā)的科研機(jī)構(gòu)和高校進(jìn)行合作,比如跟華西醫(yī)科大、湘雅醫(yī)院和醫(yī)學(xué)院等都有合作。
Q:我們現(xiàn)在的產(chǎn)品其實(shí)可以直接用瀏覽器就能夠使用,整體部署也很輕量化,所有的核心產(chǎn)品部署方式都是這樣嗎?
A:是的,我們一般線上在執(zhí)行的,大多數(shù)是AI推理工作,訓(xùn)練工作通常離線完成,所以數(shù)據(jù)量傳輸沒(méi)有那么大,也會(huì)有小量訓(xùn)練場(chǎng)景,更多是基于預(yù)訓(xùn)練模型的微調(diào),它也是通過(guò)小批量的數(shù)據(jù)就可以進(jìn)行的,數(shù)據(jù)傳輸壓力也較小。輕量化部署并不是我們用到的算力不夠多,系統(tǒng)背后是調(diào)用了混合云、HPC算力的,只不過(guò)給用戶包裝成了瀏覽器訪問(wèn)。如果是一些私有化的場(chǎng)景,也需要我們把這套背后的算力系統(tǒng)進(jìn)行相關(guān)部署,在SaaS上面不需要。
一般大型企業(yè)的話,都是要私有化的。因?yàn)樗麄儗?duì)數(shù)據(jù)隱私要求特別的高,一些類似教學(xué)的場(chǎng)景,或者是一些研究所的場(chǎng)景的話,可能在某一個(gè)課題當(dāng)中就臨時(shí)用一下,不需要私有化部署。
Q:與目前合作企業(yè)實(shí)際項(xiàng)目進(jìn)展情況如何?具體進(jìn)行到什么階段?
A:我們跟藥企的合作主要是計(jì)算環(huán)節(jié),公司不做藥物生產(chǎn),所以不參與藥企的藥物開(kāi)發(fā)環(huán)節(jié)。
我們基本上算是全鏈路負(fù)載,我們現(xiàn)在也在嘗試一些新的領(lǐng)域和探索,比如將軟件整合到偏硬件研發(fā)的自動(dòng)化實(shí)驗(yàn)室中,共同服務(wù)好更多的企業(yè),因?yàn)樗幤蟮男枨筮€是蠻多蠻復(fù)雜的。
然后從營(yíng)收上來(lái)說(shuō),我們?nèi)ツ甑臓I(yíng)收破一個(gè)億。
我們跟藥企的合作的商業(yè)模式有兩種形式,一種是賣軟件,另外一種是聯(lián)合研發(fā)。
很多大企業(yè)會(huì)本地化部署,自己也能養(yǎng)得起團(tuán)隊(duì),能夠有資金足夠支撐購(gòu)買軟件費(fèi)用,但還有一部分可能中型或者是新型創(chuàng)新型藥企,缺少先進(jìn)生產(chǎn)工具,也缺少對(duì)應(yīng)的人才來(lái)支撐其使用這些工具,所以會(huì)選擇跟我們聯(lián)合研發(fā),我們能夠幫助他們做更多的計(jì)算,其中也因?yàn)樯婕暗綌?shù)據(jù)和信息安全的事情,所以雙方的結(jié)合就特別緊密。
但很多大的藥企,具備足夠的資金、人才實(shí)力,甚至希望我們?cè)俳o他們提供SaaS的同時(shí),能給他做一些定制化的服務(wù)。
AI for Science的未來(lái)
Q:我看到目前的幾個(gè)算法分級(jí),非常像自動(dòng)駕駛的五個(gè)分級(jí),目前我們?cè)贚2階段能達(dá)到一種什么狀態(tài)了?可以多大比例上,替代此前的實(shí)驗(yàn)?zāi)J剑磕梢耘e一個(gè)具體場(chǎng)景的案例說(shuō)明
A:L2的場(chǎng)景,我們更多是叫接近實(shí)驗(yàn)精度,更多還是以人為本,計(jì)算去輔助人類,減輕實(shí)驗(yàn)壓力。因?yàn)樗幬镌O(shè)計(jì)里,不同體系差距比較大,我們?cè)诓糠煮w系上都已經(jīng)能夠達(dá)到接近實(shí)驗(yàn)的精度。所以也不是說(shuō)用戶完全可以不用做實(shí)驗(yàn),而是我可以幫助用戶做更多基礎(chǔ)的事情,比如分子篩選,它可能是100萬(wàn)的藥物化合物,通過(guò)AI可以幫用戶篩選掉幾十萬(wàn),最后可能剩下的,需要科研人員再進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)量級(jí)會(huì)大大減少。
Q:從L2邁到L3的難點(diǎn)是什么?
A:我對(duì)這個(gè)L3的理解是AI能夠直接給出結(jié)果,相當(dāng)于在某些場(chǎng)景,可以直接替代掉人類實(shí)驗(yàn)。到L3的難度,主要在于一個(gè)是各環(huán)節(jié)精度需要達(dá)到一定高度,另外其中涉及算法特別多,各個(gè)算法之間的整合也是一個(gè)難點(diǎn)。對(duì)于算法的整合,其實(shí)類似于一套完整的工作流體系,而這個(gè)體系是能夠不斷自我回溯,自我優(yōu)化的。
Q:從過(guò)去到現(xiàn)在在整體的技術(shù)上是否有一些迭代?以及目前模型的發(fā)展上是否會(huì)遇到一些瓶頸?
A:目前我們主要基于數(shù)據(jù)在各個(gè)算法上不斷迭代,尤其是在用戶常用的產(chǎn)品上,算法迭代更快一些,像我們的DPA產(chǎn)品,已經(jīng)從1代升級(jí)到2代,升級(jí)的能力在于,1代能夠支持單一領(lǐng)域的預(yù)訓(xùn)練,2代則能夠根據(jù)不同的標(biāo)注方式的數(shù)據(jù)集,同時(shí)進(jìn)行并行訓(xùn)練。
瓶頸主要來(lái)源于數(shù)據(jù),科學(xué)計(jì)算領(lǐng)域數(shù)據(jù)來(lái)源并不廣泛,公用數(shù)據(jù)集沒(méi)有很多,所以我們現(xiàn)在很大一部分工作,是如何在小數(shù)據(jù)集基礎(chǔ)上,讓模型的訓(xùn)練效果越來(lái)越好。
另外,還有一個(gè)額外需要注意的,就是可解釋性問(wèn)題,因?yàn)榭茖W(xué)計(jì)算要求比較嚴(yán)謹(jǐn),對(duì)可解釋性要求更高,我們現(xiàn)在通過(guò)暴露參數(shù)、平移的路徑等方式,來(lái)盡量增強(qiáng)模型的可解釋性。
Q:如何解決數(shù)據(jù)稀少問(wèn)題?
A:在AI for Science領(lǐng)域,不管是材料領(lǐng)域,還是藥物領(lǐng)域,最基礎(chǔ)微觀層面的物理原理是一致的,所以好處是,某些材料領(lǐng)域的數(shù)據(jù)可以直接復(fù)用到醫(yī)藥領(lǐng)域,比如DPA 2就能基于不同標(biāo)準(zhǔn)體系下給到的數(shù)據(jù),幫助用戶訓(xùn)練出一個(gè)統(tǒng)一的模型。然后將這套模型具體應(yīng)用到行業(yè)中時(shí),再拿少量數(shù)據(jù)進(jìn)行微調(diào),就可以進(jìn)行使用。
在ToC市場(chǎng)中我們還沒(méi)有涉及,但我們這套體系已經(jīng)覆蓋了一些教學(xué)場(chǎng)景。我們有一個(gè)教學(xué)研用一體化的科研平臺(tái),現(xiàn)在主要面對(duì)的客戶是偏高校,或者是偏C端的一些用戶。針對(duì)高校,我們這邊會(huì)有老師類似實(shí)訓(xùn)平臺(tái),從整個(gè)教學(xué)到學(xué)生上課,再到使用,甚至是研究成果的落地,這個(gè)平臺(tái)都可以支持。
Q:AI for Science未來(lái)市場(chǎng)發(fā)展空間如何?
A:市場(chǎng)空間我覺(jué)得足夠大。不管是科研,還是醫(yī)藥、材料,AI的加入至少在實(shí)驗(yàn)這個(gè)層面上,就能夠?qū)嶋H的解決問(wèn)題,幫助科研人員提升實(shí)驗(yàn)效果,減輕實(shí)驗(yàn)負(fù)擔(dān)。
從整個(gè)客戶接受程度來(lái)說(shuō),于我們而言很多場(chǎng)景中有一部分成本則是在于教育用戶,比如在藥物領(lǐng)域,我們跟客戶都是建立長(zhǎng)期合作關(guān)系,因?yàn)樾枰阒蛻糇咄暌徽麄€(gè)驗(yàn)證周期。
相比較來(lái)說(shuō),材料領(lǐng)域會(huì)快很多,比如電池的研發(fā)周期就挺快的,電解液的配比如果用AI預(yù)測(cè)出效果的話,很夠就能夠進(jìn)行制備驗(yàn)證。
從國(guó)家層面,科技部會(huì)同自然科學(xué)基金委啟動(dòng)了Al for Science專項(xiàng)部署工作。這也進(jìn)一步說(shuō)明了從社會(huì)經(jīng)濟(jì)層面到國(guó)家宏觀政策都是看好和大力支持的,這塊肯定是一個(gè)未來(lái)的方向,毋庸置疑。
Q:AI for Science現(xiàn)在還是偏早期的階段,未來(lái)3年內(nèi)會(huì)發(fā)展到什么階段?
A:我覺(jué)得至少所有的客戶會(huì)對(duì)這件事有一個(gè)統(tǒng)一的認(rèn)知。現(xiàn)在大家已經(jīng)開(kāi)始積極擁抱AI,對(duì)AI的理解更上一層。所有各行業(yè)都不會(huì)對(duì)這個(gè)詞感覺(jué)到陌生或者排斥,有一個(gè)比較積極的態(tài)度。之后就是我們跟客戶怎么建立類似共創(chuàng)的合作關(guān)系,畢竟這個(gè)行業(yè)屬于數(shù)據(jù)敏感型行業(yè)。在三年節(jié)點(diǎn)上,也希望能夠幫客戶有一些實(shí)際的落地場(chǎng)景出來(lái)。
其實(shí)我覺(jué)得如果說(shuō)能夠把那個(gè)價(jià)值點(diǎn)稍微考量的更清楚,客戶的接受度還是蠻高的,因?yàn)檎w上來(lái)講,現(xiàn)在無(wú)論是藥企還是剛才講的新能源,大家也越來(lái)越重視創(chuàng)新投入。我們也是希望能夠助力整個(gè)科研范式創(chuàng)新,包括科研的基礎(chǔ)設(shè)施,以及上層各個(gè)場(chǎng)景,通過(guò)我們這套科研平臺(tái)能夠能夠連通起來(lái),然后去賦能各個(gè)行業(yè)。