详细内容

引文幻覺(jué)大幅下降的AI模型誕生準(zhǔn)確率與人類專家相近

时间：2026-02-06 作者：張夢(mèng)然【转载】来自：科技日?qǐng)?bào)

圖片來(lái)源：AI生成

《自然》4日?qǐng)?bào)道了一個(gè)開(kāi)源語(yǔ)言模型“OpenScholar”，其在準(zhǔn)確進(jìn)行文獻(xiàn)綜述方面可超越商用大語(yǔ)言模型。比如，在該研究開(kāi)展的實(shí)驗(yàn)中，GPT4o會(huì)在78%至90%的情況下出現(xiàn)引文幻覺(jué)，而“OpenScholar”的引文準(zhǔn)確率卻與人類專家相仿。雖然仍需進(jìn)一步優(yōu)化，但該工具有望幫助科學(xué)家處理復(fù)雜且日益繁重的科學(xué)文獻(xiàn)綜述任務(wù)。

科學(xué)文獻(xiàn)綜述對(duì)于支持循證決策、微調(diào)科學(xué)過(guò)程和引導(dǎo)新發(fā)現(xiàn)都很重要。然而，文獻(xiàn)發(fā)表數(shù)量的增長(zhǎng)使研究人員很難掌握全部資訊。商用大語(yǔ)言模型可以提供協(xié)助，但卻很容易出錯(cuò)，如歸因能力有限和引文幻覺(jué)。

為了生成準(zhǔn)確、全面、透明的科學(xué)文獻(xiàn)綜述，美國(guó)華盛頓大學(xué)團(tuán)隊(duì)推出了“OpenScholar”。該模型是專為科研任務(wù)設(shè)計(jì)的檢索增強(qiáng)語(yǔ)言模型。其他系統(tǒng)也用過(guò)這個(gè)框架，但研究團(tuán)隊(duì)將其與一個(gè)包含4500萬(wàn)篇最新開(kāi)放獲取科研論文的專業(yè)數(shù)據(jù)庫(kù)以及一個(gè)自我評(píng)估機(jī)制相結(jié)合，從而優(yōu)化了其輸出。

研究團(tuán)隊(duì)還創(chuàng)建了名為“ScholarQABench”的基準(zhǔn)工具來(lái)評(píng)估文獻(xiàn)綜述的自動(dòng)化。測(cè)試顯示，“OpenScholar”的準(zhǔn)確率比GPT4o和PaperQA2（一個(gè)文獻(xiàn)綜述工具）這類現(xiàn)有系統(tǒng)分別高出6.1%和5.5%。此外，“OpenScholar”生成的答案，在50%到70%的情況下比專家注釋器的答案更有用。

團(tuán)隊(duì)總結(jié)道，以上結(jié)果和引文幻覺(jué)大幅下降證明了“OpenScholar”有望支持和推動(dòng)進(jìn)一步研究工作。但他們指出，該系統(tǒng)仍有局限性并強(qiáng)調(diào)基于語(yǔ)言模型的系統(tǒng)無(wú)法使科學(xué)文獻(xiàn)綜述完全自動(dòng)化。他們向?qū)W界同時(shí)開(kāi)放“ScholarQABench”和“OpenScholar”，以鼓勵(lì)進(jìn)一步研究和優(yōu)化。

總編輯圈點(diǎn)

科研人員每天尋找有用的論文，相當(dāng)于在信息的“海洋”里撈“珍珠”。但現(xiàn)在海水暴漲，真正有用之物和以假亂真之物一起浮上了水面。以前大家用的是通用的“萬(wàn)能撈網(wǎng)”，比如GPT。但它的網(wǎng)眼太大，撈上來(lái)的有可能是“塑料珠子”，也就是假的或錯(cuò)誤的引文，需花大量時(shí)間去挑，還可能會(huì)被誤導(dǎo)。而這個(gè)“OpenScholar”，是一個(gè)專門為這片科學(xué)海洋設(shè)計(jì)的網(wǎng)。它不追求萬(wàn)能，而追求可靠，而且所有科學(xué)家都能一起改進(jìn)這個(gè)工具，讓它更準(zhǔn)確。這有望把科研人員從繁瑣、易錯(cuò)的文獻(xiàn)苦海中部分解放出來(lái)，讓他們能把寶貴精力用在真正的思考和發(fā)現(xiàn)上。這正是科學(xué)工具走向可信化的重要一步。

上一篇首次發(fā)現(xiàn)！帕金森病因關(guān)鍵腦網(wǎng)絡(luò)“過(guò)度連接”致病下一篇非人靈長(zhǎng)類動(dòng)物實(shí)驗(yàn)表明：艾滋病候選疫苗可單針誘導(dǎo)中和抗體

山西科普網(wǎng)是一個(gè)集原創(chuàng)數(shù)字化作品傳播、科普活動(dòng)展示、科普資源庫(kù)下載、互動(dòng)交流于一體的科普網(wǎng)站，秉承嚴(yán)謹(jǐn)求實(shí)的科學(xué)態(tài)度，
打造全國(guó)一流的科普信息傳播平臺(tái)。

色就是色欧美setu,亚洲国产av一二区,久久国产精品免费视频,日日摸日日碰夜夜爽亚洲综合,天天色天天日天天摸,大香蕉伊人免费在线观看,尤物久久99国产精品,能在线看小视频的网站,亚洲韩国日本欧美视频91

引文幻覺(jué)大幅下降的AI模型誕生準(zhǔn)確率與人類專家相近

合作機(jī)構(gòu)

山西省科學(xué)技術(shù)協(xié)會(huì) 山西科技新聞出版?zhèn)髅郊瘓F(tuán) 深圳科普網(wǎng) 山西科技展教中心

聯(lián)系我們

電話/TEL

0351—7041988

地址/ADDRESS

山西省太原市萬(wàn)柏林區(qū)晉祠路23號(hào)

色就是色欧美setu,亚洲国产av一二区,久久国产精品免费视频,日日摸日日碰夜夜爽亚洲综合,天天色天天日天天摸,大香蕉伊人免费在线观看,尤物久久99国产精品,能在线看小视频的网站,亚洲韩国日本欧美视频91

引文幻覺(jué)大幅下降的AI模型誕生 準(zhǔn)確率與人類專家相近

合作機(jī)構(gòu)

山西省科學(xué)技術(shù)協(xié)會(huì) 山西科技新聞出版?zhèn)髅郊瘓F(tuán) 深圳科普網(wǎng) 山西科技展教中心

聯(lián)系我們

電話/TEL

0351—7041988

地址/ADDRESS

山西省太原市萬(wàn)柏林區(qū)晉祠路23號(hào)

引文幻覺(jué)大幅下降的AI模型誕生準(zhǔn)確率與人類專家相近