一個基于谷歌大型語言模型的對話機(jī)器人能收集模擬患者的病史,并給出各種診斷。來源:Tero Vesalainen/Getty
一個被訓(xùn)練學(xué)習(xí)“看病”的人工智能(AI)系統(tǒng)在與模擬病人交談時可媲美乃至超過人類醫(yī)生的表現(xiàn),并能根據(jù)患者病史給出可能的診斷結(jié)果[1]。
這個對話機(jī)器人基于谷歌(Google)開發(fā)的大型語言模型(LLM),在呼吸道疾病和心血管疾病等方面的診斷比有執(zhí)業(yè)資格的初級保健醫(yī)師更加準(zhǔn)確。與人類醫(yī)生相比,該機(jī)器人在醫(yī)療對話中能獲取同等量的信息,而且更有同理心。
“據(jù)我們所知,這是首個以診斷對話和獲取病史為設(shè)計目標(biāo)的對話式AI系統(tǒng)?!盙oogle Health的臨床研究科學(xué)家、該研究[1]共同作者Alan Karthikesalingam說。該研究1月11日發(fā)布于arXiv預(yù)印本服務(wù)器,尚未經(jīng)過同行評審。
該對話機(jī)器人名為Articulate Medical Intelligence Explorer(簡稱AMIE),尚處于純實驗階段。它還未在有真實健康問題的人群中測試過,只在經(jīng)過訓(xùn)練患者模仿者中測試過。Karthikesalingam說:“我們希望大家能謹(jǐn)慎謙遜地解讀結(jié)果?!?/p>
即使該機(jī)器人距離臨床應(yīng)用仍很遠(yuǎn),但作者認(rèn)為,它最終或能推動醫(yī)療護(hù)理的普及。這個工具能作為助手,但不應(yīng)取代病人與醫(yī)生的交流,哈佛大學(xué)醫(yī)學(xué)院內(nèi)科醫(yī)生Adam Rodman說,“醫(yī)療絕不是收集信息這么簡單——而是關(guān)于人與人的關(guān)系?!?/p>
學(xué)習(xí)干“細(xì)活”
意圖將LLM用于醫(yī)療領(lǐng)域的開發(fā)者很少研究過這類系統(tǒng)是否能模仿醫(yī)生采集患者病史的能力,并在此基礎(chǔ)上做出診斷。醫(yī)學(xué)生經(jīng)過長年累月的訓(xùn)練才具備這種能力,Rodman說,“這是醫(yī)生需要掌握的最重要也最難的技能之一?!?/p>
開發(fā)者面對的一個挑戰(zhàn)是缺少作為訓(xùn)練數(shù)據(jù)的真實世界醫(yī)療對話,位于加州山景城的Google Health的AI研究科學(xué)家、該研究共同作者Vivek Natarajan 說道。為了克服這個挑戰(zhàn),研究團(tuán)隊設(shè)計了一種方法,讓這個對話機(jī)器人用它自己的“對話”進(jìn)行訓(xùn)練。
研究團(tuán)隊先用現(xiàn)成的真實世界數(shù)據(jù)對基礎(chǔ)LLM進(jìn)行了初輪微調(diào),這類數(shù)據(jù)包括電子病歷和醫(yī)療對話的轉(zhuǎn)錄文本。為進(jìn)一步訓(xùn)練該模型,團(tuán)隊再讓這個LLM扮演有特定疾病的患者和想了解病史并做出診斷的富有同情心的醫(yī)生。
該團(tuán)隊還讓這個模型扮演了另一個角色:一個給醫(yī)患對話打分并提出改進(jìn)意見的評委。這些評語會被用來進(jìn)一步訓(xùn)練這個LLM,并生成改進(jìn)后的對話。
為測試該系統(tǒng),研究團(tuán)隊招募了訓(xùn)練后能模擬病人的20人,讓他們同時與AMIE和20名有執(zhí)業(yè)資格的醫(yī)師進(jìn)行基于文字的醫(yī)療咨詢,并且不知道和他們對話的是人還是機(jī)器。
這些模仿者模擬了149種臨床情景,并被要求對體驗進(jìn)行評價。一組專家也對AMIE和人類醫(yī)師的表現(xiàn)進(jìn)行打分。
AMIE得高分
在測試的全部6個醫(yī)療??浦校摍C(jī)器人的診斷準(zhǔn)確率均媲美或超越了人類醫(yī)生。在26個評估對話質(zhì)量的指標(biāo)中,該機(jī)器人有24個指標(biāo)的得分高于人類醫(yī)生,包括禮貌程度,對疾病和療法的解釋,給人感覺誠實,以及表達(dá)關(guān)心和關(guān)注。
Karthikesalingam說:“這絕不是說語言模型在了解病史方面比醫(yī)生要強?!彼赋?,研究中的初級保健醫(yī)生可能并不習(xí)慣和病人用文字溝通,這會影響他們的表現(xiàn)。
而LLM在這方面具有天然的優(yōu)勢,能快速給出結(jié)構(gòu)清晰而具體的回答,Karthikesalingam說,這讓它們能不知疲倦地照顧病人的需求。
“一視同仁”的對話機(jī)器人
他說,該研究接下來的重要一步是開展更具體的研究,分析可能存在的偏見,同時確保該系統(tǒng)能同等對待不同人群。這個谷歌團(tuán)隊已經(jīng)在思考,如果在真正有健康問題的人群中測試該系統(tǒng)需要滿足哪些倫理要求。
杜克新加坡國立大學(xué)醫(yī)學(xué)院臨床AI科學(xué)家Daniel Ting也認(rèn)為,對該系統(tǒng)進(jìn)行偏見測試至關(guān)重要,這樣才能保證算法不會區(qū)別對待訓(xùn)練數(shù)據(jù)中代表性不高的族群。
對話機(jī)器人用戶的隱私也是需要考量的重要問題,Ting說,“對于現(xiàn)在使用的很多商業(yè)大型語言模型平臺來說,我們?nèi)圆恢罃?shù)據(jù)究竟儲存在那里,也不知道這些數(shù)據(jù)是如何被分析的?!?/p>