首頁 > 公司 > 內(nèi)容
百川智能發(fā)布超千億參數(shù)大模型Baichuan 3
2024-01-29 14:49:34來源:中國證券網(wǎng)
分享到:

上證報中國證券網(wǎng)訊(記者 孫小程)1月29日,百川智能發(fā)布超千億參數(shù)大語言模型Baichuan 3。在多個英文評測中,Baichuan 3表現(xiàn)接近GPT-4水平。在CMMLU、GAOKAO、HumanEval和MBPP等多個中文評測榜單上,Baichuan 3超越GPT-4,展現(xiàn)了其在中文任務(wù)上的優(yōu)勢。此外,在MT-Bench、IFEval等對齊榜單評測中,Baichuan 3超越了GPT-3.5、Claude等大模型。

在對邏輯推理能力及專業(yè)性要求極高的MCMLE、MedExam、CMExam等權(quán)威醫(yī)療評測上,Baichuan 3的中文效果同樣超過GPT-4,是中文醫(yī)療任務(wù)表現(xiàn)最佳的大模型之一。Baichuan 3還突破“迭代式強化學(xué)習(xí)”技術(shù),進一步提升了語義理解和生成能力,在詩詞創(chuàng)作的格式、韻律、表意等方面表現(xiàn)優(yōu)異。

據(jù)介紹,為了給Baichuan3注入豐富的醫(yī)療知識,百川智能在模型預(yù)訓(xùn)練階段構(gòu)建了超過千億Token的醫(yī)療數(shù)據(jù)集,包括醫(yī)學(xué)研究文獻、真實的電子病歷資料、醫(yī)學(xué)領(lǐng)域的專業(yè)書籍和知識庫資源、針對醫(yī)療問題的問答資料等。該數(shù)據(jù)集涵蓋從理論到實際操作,從基礎(chǔ)理論到臨床應(yīng)用等各個方面的醫(yī)學(xué)知識,確保了模型在醫(yī)療領(lǐng)域的專業(yè)度和知識深度。

與百億、幾百億級別參數(shù)模型訓(xùn)練不同,超千億參數(shù)模型在訓(xùn)練過程中對高質(zhì)量數(shù)據(jù),訓(xùn)練穩(wěn)定性、訓(xùn)練效率的要求都高出幾個量級。為更好解決相關(guān)問題,百川智能在訓(xùn)練過程中針對性提出了“動態(tài)數(shù)據(jù)選擇”“重要度保持”以及“異步CheckPoint存儲”等多種創(chuàng)新技術(shù)手段及方案,有效提升了Baicuan 3的各項能力。

為全面提升數(shù)據(jù)質(zhì)量,百川智能設(shè)計了一套基于因果采樣的動態(tài)訓(xùn)練數(shù)據(jù)選擇方案,該方案能夠在模型訓(xùn)練過程中動態(tài)選擇訓(xùn)練數(shù)據(jù),極大提升數(shù)據(jù)質(zhì)量。訓(xùn)練效率方面,百川智能針對超千億參數(shù)模型的并行訓(xùn)練問題進行了一系列優(yōu)化,通過多種技術(shù)創(chuàng)新,Baichuan 3的訓(xùn)練框架在性能方面相比業(yè)界主流框架提升超過30%。

在擁有豐富高質(zhì)量專業(yè)醫(yī)療知識,并能通過調(diào)優(yōu)后的Prompt對這些知識進行充分激發(fā)基礎(chǔ)上,結(jié)合超千億參數(shù)的推理能力,Baichuan 3在醫(yī)療領(lǐng)域的任務(wù)效果提升顯著,在各類中英文醫(yī)療測試中的成績提升了2到14個百分點。

中方信富公眾號
更多資訊關(guān)注
中方信富公眾號