|
引文幻覺(jué)大幅下降的AI模型誕生 準(zhǔn)確率與人類專家相近
《自然》4日?qǐng)?bào)道了一個(gè)開(kāi)源語(yǔ)言模型“OpenScholar”,其在準(zhǔn)確進(jìn)行文獻(xiàn)綜述方面可超越商用大語(yǔ)言模型。比如,在該研究開(kāi)展的實(shí)驗(yàn)中,GPT4o會(huì)在78%至90%的情況下出現(xiàn)引文幻覺(jué),而“OpenScholar”的引文準(zhǔn)確率卻與人類專家相仿。雖然仍需進(jìn)一步優(yōu)化,但該工具有望幫助科學(xué)家處理復(fù)雜且日益繁重的科學(xué)文獻(xiàn)綜述任務(wù)。 科學(xué)文獻(xiàn)綜述對(duì)于支持循證決策、微調(diào)科學(xué)過(guò)程和引導(dǎo)新發(fā)現(xiàn)都很重要。然而,文獻(xiàn)發(fā)表數(shù)量的增長(zhǎng)使研究人員很難掌握全部資訊。商用大語(yǔ)言模型可以提供協(xié)助,但卻很容易出錯(cuò),如歸因能力有限和引文幻覺(jué)。 為了生成準(zhǔn)確、全面、透明的科學(xué)文獻(xiàn)綜述,美國(guó)華盛頓大學(xué)團(tuán)隊(duì)推出了“OpenScholar”。該模型是專為科研任務(wù)設(shè)計(jì)的檢索增強(qiáng)語(yǔ)言模型。其他系統(tǒng)也用過(guò)這個(gè)框架,但研究團(tuán)隊(duì)將其與一個(gè)包含4500萬(wàn)篇最新開(kāi)放獲取科研論文的專業(yè)數(shù)據(jù)庫(kù)以及一個(gè)自我評(píng)估機(jī)制相結(jié)合,從而優(yōu)化了其輸出。 研究團(tuán)隊(duì)還創(chuàng)建了名為“ScholarQABench”的基準(zhǔn)工具來(lái)評(píng)估文獻(xiàn)綜述的自動(dòng)化。測(cè)試顯示,“OpenScholar”的準(zhǔn)確率比GPT4o和PaperQA2(一個(gè)文獻(xiàn)綜述工具)這類現(xiàn)有系統(tǒng)分別高出6.1%和5.5%。此外,“OpenScholar”生成的答案,在50%到70%的情況下比專家注釋器的答案更有用。 團(tuán)隊(duì)總結(jié)道,以上結(jié)果和引文幻覺(jué)大幅下降證明了“OpenScholar”有望支持和推動(dòng)進(jìn)一步研究工作。但他們指出,該系統(tǒng)仍有局限性并強(qiáng)調(diào)基于語(yǔ)言模型的系統(tǒng)無(wú)法使科學(xué)文獻(xiàn)綜述完全自動(dòng)化。他們向?qū)W界同時(shí)開(kāi)放“ScholarQABench”和“OpenScholar”,以鼓勵(lì)進(jìn)一步研究和優(yōu)化。 總編輯圈點(diǎn) 科研人員每天尋找有用的論文,相當(dāng)于在信息的“海洋”里撈“珍珠”。但現(xiàn)在海水暴漲,真正有用之物和以假亂真之物一起浮上了水面。以前大家用的是通用的“萬(wàn)能撈網(wǎng)”,比如GPT。但它的網(wǎng)眼太大,撈上來(lái)的有可能是“塑料珠子”,也就是假的或錯(cuò)誤的引文,需花大量時(shí)間去挑,還可能會(huì)被誤導(dǎo)。而這個(gè)“OpenScholar”,是一個(gè)專門為這片科學(xué)海洋設(shè)計(jì)的網(wǎng)。它不追求萬(wàn)能,而追求可靠,而且所有科學(xué)家都能一起改進(jìn)這個(gè)工具,讓它更準(zhǔn)確。這有望把科研人員從繁瑣、易錯(cuò)的文獻(xiàn)苦海中部分解放出來(lái),讓他們能把寶貴精力用在真正的思考和發(fā)現(xiàn)上。這正是科學(xué)工具走向可信化的重要一步。 |
山西科普網(wǎng)是一個(gè)集原創(chuàng)數(shù)字化作品傳播、科普活動(dòng)展示、科普資源庫(kù)下載、互動(dòng)交流于一體的科普網(wǎng)站,秉承嚴(yán)謹(jǐn)求實(shí)的科學(xué)態(tài)度,
打造全國(guó)一流的科普信息傳播平臺(tái)。
合作機(jī)構(gòu)
聯(lián)系我們
電話/TEL
0351—7041988
地址/ADDRESS
山西省太原市萬(wàn)柏林區(qū)晉祠路23號(hào)
