學(xué)術(shù)論文的撤稿事件時有發(fā)生,這不僅損害了科研誠信,也可能對公眾信任和科學(xué)進展產(chǎn)生負(fù)面影響。
傳統(tǒng)上,學(xué)術(shù)界依賴同行評審和出版后的讀者反饋來識別和糾正問題論文,但這些方法可能無法及時發(fā)現(xiàn)所有問題,尤其是在當(dāng)前科研論文出版數(shù)量急劇增加的背景下。
在這種情況下,如何快速識別存在問題的論文,并促進它們的撤稿,成了學(xué)術(shù)界亟待解決的一個難題。
最近,來自中國人民大學(xué)和浙江大學(xué)等機構(gòu)的研究者把涉及數(shù)千篇SCI/SSCI的期刊論文的一萬多條推文喂給了GPT-4,讓它根據(jù)推文回答這篇論文是否有可能被撤稿,然后和人類預(yù)測的結(jié)果相比較。
論文地址:https://arxiv.org/abs/2403.16851
結(jié)果,GPT-4幾乎完美地勝任了這項工作,預(yù)測結(jié)果有近95%和人工預(yù)測結(jié)果一致!
論文作者Er-Te Zheng總結(jié)道:大模型雖然有可能引發(fā)學(xué)術(shù)不端,但在另一方面也能夠幫助識別問題論文并預(yù)測其撤稿,維護科研誠信。因此,將AI工具應(yīng)用于學(xué)術(shù)研究問題的關(guān)鍵,在于AI工具如何為人類所使用。
推文能預(yù)測論文撤稿嗎?
作為ChatGPT預(yù)測的基礎(chǔ),研究首先探索了推文本身能否預(yù)測撤稿。我們都知道,有許多問題論文首先在推特上被曝光,然后才被撤稿。比如用AI畫小鼠插圖的這篇“著名”論文。
為探索推文本身能否預(yù)測撤稿,研究搜集了一組包含3505篇撤稿論文的數(shù)據(jù)集,并采用粗略精確匹配方法獲得的具有相似特征的3505篇未撤稿論文。
這些特征包括發(fā)表期刊、發(fā)表年份、作者數(shù)量和推文數(shù)量。通過推特API收集了上述7010篇論文的推文數(shù)據(jù),包括推文發(fā)布日期和文本內(nèi)容。
篩選出在論文撤稿前發(fā)布的推文后,研究最終共搜集到8367條涉及撤稿論文的英文推文和6180條涉及未撤稿論文的英文推文。
研究將推文分為訓(xùn)練集和測試集,在訓(xùn)練集上訓(xùn)練模型,并在測試集上驗證關(guān)鍵詞方法、機器學(xué)習(xí)模型和ChatGPT的預(yù)測結(jié)果情況。研究使用人工預(yù)測結(jié)果(研究者根據(jù)推文預(yù)測論文撤稿情況)作為主要基準(zhǔn)之一,用以衡量模型與人工方法的一致性情況。
作為研究基準(zhǔn)的人工預(yù)測結(jié)果顯示,人類若認(rèn)為推文暗示論文存在問題,則推文涉及的這篇論文有高達約93%的幾率會被撤稿(精確率≈93%),這說明部分推文的確能夠預(yù)測論文撤稿;不過,像這樣能通過推文被人工預(yù)測出撤稿的論文的總體占比不高,約占所有撤稿論文的16%(召回率≈16%)。
因此,盡管只有一小部分撤稿論文的相關(guān)推文在論文撤稿前含有了可識別的問題信號,但這些信號確實存在。
研究者觀察到,能夠有效預(yù)測論文撤稿的批評性推文有兩種類型:第一種直接突出論文中的錯誤或?qū)W術(shù)不端行為;第二種使用批評或諷刺的方式來突出論文的質(zhì)量存疑。
這些推文能夠促使期刊對論文進行調(diào)查,如果調(diào)查證實了推文中提到的問題的存在和嚴(yán)重性,論文隨后可能會被撤稿。在這種情況下,批評性推文可以作為撤稿論文的催化劑,強調(diào)了將其納入研究誠信的早期預(yù)警系統(tǒng)的價值。
ChatGPT能預(yù)測論文撤稿嗎?
既然發(fā)現(xiàn)推文具有預(yù)測論文撤稿的潛力,研究進一步探索了關(guān)鍵詞方法、機器學(xué)習(xí)模型和ChatGPT在根據(jù)推文來預(yù)測論文撤稿方面的潛力,將各模型的預(yù)測結(jié)果與人工預(yù)測結(jié)果進行比較。
研究表明,GPT-4的總體預(yù)測結(jié)果(包含撤稿預(yù)測和非撤稿預(yù)測)與人工預(yù)測結(jié)果的一致性最高,高達約95%!
其次是GPT-3.5和SVM模型,其一致性超過80%。而關(guān)鍵詞方法與其他機器學(xué)習(xí)模型的一致性則在46%-64%之間,預(yù)測效果一般。
在精確率方面,同樣是GPT-4的精確率最高:GPT-4預(yù)測會撤稿的論文中,近70%的在人工預(yù)測中同樣會撤稿。而其他模型的預(yù)測精確率均遠低于GPT-4。
圖中進一步顯示了不同模型預(yù)測結(jié)果與人工預(yù)測結(jié)果的比較。關(guān)鍵詞方法和三種機器學(xué)習(xí)模型(LR、RF和NB)將大量人工無法判定為撤稿的論文歸為撤稿(過擬合率高)。
相比而言,GPT-4的預(yù)測結(jié)果最接近于人工預(yù)測的結(jié)果:絕大部分GPT-4預(yù)測為撤稿的論文,人工預(yù)測也為撤稿,絕大部分GPT-4預(yù)測為非撤稿的論文,人工預(yù)測同樣為非撤稿。
ChatGPT預(yù)測論文撤稿的實例
與其他方法相比,ChatGPT還有一個重要的優(yōu)勢——它能夠為其預(yù)測提供理由,而其他方法則無法詳細解釋其決策。
例如,從樣本論文中可以看出,ChatGPT對推文有深刻的理解,并能準(zhǔn)確提取可能預(yù)測論文撤稿的信息,為使用推文評估論文是否存在潛在問題提供了寶貴的幫助。
例如:
然而,也要注意到ChatGPT有時存在“幻覺”問題,可能會產(chǎn)生不恰當(dāng)?shù)妮敵?,因此在使用時需要謹(jǐn)慎,并考慮到其可能的錯誤預(yù)測。
例如:
樣例論文3中,相關(guān)推文是對這篇論文的評價,暗示該論文指出諾獎得主的某篇論文存在問題。
然而,ChatGPT將樣例論文3誤以為是被撤稿的諾獎得主的相關(guān)工作,因此這篇論文可能被撤稿。此處的分析結(jié)果表明,ChatGPT存在一定的邏輯推理謬誤與過度解讀等問題。
因此,ChatGPT雖然能夠通過推文從一定程度上預(yù)測論文撤稿,與人工預(yù)測的一致性在各模型中表現(xiàn)最好。但其在當(dāng)前并非完美,在未來仍有長足的改進空間。
研究收到了著名學(xué)術(shù)不端數(shù)據(jù)庫撤稿觀察的轉(zhuǎn)發(fā),網(wǎng)友們表示,ChatGPT還能用來預(yù)測論文撤稿?真是從未設(shè)想過的道路?!拔疫€以為沒有足夠多的數(shù)據(jù)來支撐這一結(jié)論呢!”
“ChatGPT 可以根據(jù)推特提及來預(yù)測論文撤稿嗎?顯然可以!請看這項研究……”
總體而言,研究揭示了社交媒體討論作為論文撤稿早期預(yù)警的潛力,同時也展示了ChatGPT等生成式人工智能在促進科研誠信方面的潛在應(yīng)用。
作者介紹
Er-Te Zheng(鄭爾特)
Er-Te Zheng是中國人民大學(xué)信息資源管理學(xué)院的碩士生,由Zhichao Fang助理教授指導(dǎo);在浙江大學(xué)獲得管理學(xué)學(xué)士學(xué)位,師從Hui-Zhen Fu副教授。未來將前往英國謝菲爾德大學(xué)信息學(xué)院攻博,師從信息計量學(xué)首席專家Mike Thelwall教授。他的研究方向涉及計算社會科學(xué)、科學(xué)學(xué)和科學(xué)計量。
Hui-Zhen Fu(付慧真)
Hui-Zhen Fu是浙江大學(xué)公共管理學(xué)院信息資源管理系副教授,北京大學(xué)博士。擔(dān)任信息資源管理研究所副所長,荷蘭萊頓大學(xué)科學(xué)技術(shù)研究中心(CWTS)訪問學(xué)者。在國際權(quán)威刊物發(fā)表論文超過40篇(SCI/SSCI),連續(xù)四年(2020-2023)入選愛思唯爾中國高被引學(xué)者榜單。她的研究方向為交叉科學(xué)、科學(xué)計量、科研誠信和科研管理。
Zhichao Fang(方志超)
Zhichao Fang是中國人民大學(xué)信息資源管理學(xué)院助理教授,荷蘭萊頓大學(xué)科學(xué)與技術(shù)研究中心(CWTS)博士,萊頓大學(xué)CWTS客座研究員,伊朗波斯灣大學(xué)社交媒體數(shù)據(jù)研究組成員。在科學(xué)計量學(xué)與科技政策等領(lǐng)域發(fā)表SCI/SSCI論文20篇,多項研究成果受到Science雜志等權(quán)威學(xué)術(shù)媒體采訪報導(dǎo)。他的研究方向為科學(xué)學(xué)、科學(xué)計量和社交媒體計量學(xué)。