12月23日,百川智能發(fā)布全鏈路領(lǐng)域增強大模型Baichuan4-Finance,實現(xiàn)了金融能力和通用能力的協(xié)同提升,增強了金融場景的整體可用性。其在金融專業(yè)能力與場景應(yīng)用能力方面大幅超越 GPT-4o,于中國人民大學(xué)財政金融學(xué)院12月17日發(fā)布的FLAME評測體系以及國內(nèi)主流開源金融評測基準FinanceIQ中均榮登榜首。
當前,大模型在落地具體場景時面臨的關(guān)鍵挑戰(zhàn)在于,如何在提升專業(yè)能力之際避免通用能力的折損。百川智能打造了一套全鏈路領(lǐng)域增強方案,該方案覆蓋了高質(zhì)量數(shù)據(jù)集構(gòu)建、模型預(yù)訓(xùn)練、微調(diào)直至強化學(xué)習(xí)等從模型研發(fā)到場景應(yīng)用的全過程。
在模型訓(xùn)練階段,通過行業(yè)首創(chuàng)的領(lǐng)域自約束訓(xùn)練技術(shù),百川智能實現(xiàn)了模型專項能力和通用能力同步提升的效果,極大提升了模型多元場景的可用性。而Baichuan4-Finance正是這一方案的最新成果,全鏈路金融領(lǐng)域增強讓其既掌握了扎實的金融理論基礎(chǔ),又具備了豐富的多場景實踐應(yīng)用能力。
具體而言,Baichuan4-Finance的高質(zhì)量金融數(shù)據(jù)集全面且嚴謹,既包含金融專業(yè)教材與學(xué)術(shù)著作、頂級金融期刊論文、監(jiān)管機構(gòu)政策文件、金融法律法規(guī)等核心專業(yè)金融知識數(shù)據(jù),也覆蓋了金融專業(yè)問答集、企業(yè)財報與年度報告、金融類研究分析報告等實踐應(yīng)用類數(shù)據(jù),為提升模型金融能力提供了良好的底層支撐。
在此基礎(chǔ)上,Baichuan4-Finance還在領(lǐng)域自約束訓(xùn)練過程中引入了更高精的通用數(shù)據(jù),與高質(zhì)量金融數(shù)據(jù)一起進行混合訓(xùn)練,最終實現(xiàn)了模型通用能力不下降,金融能力穩(wěn)定增長的效果。
此外,百川智能在后訓(xùn)練環(huán)節(jié)也做了大量增強工作,如:通過合成數(shù)據(jù)、指令數(shù)據(jù)對模型進行有監(jiān)督的微調(diào);在強化學(xué)習(xí)策略中,針對數(shù)學(xué)計算等金融領(lǐng)域特別關(guān)注的場景進行樣本增強等,進一步提升了模型性能。
為了更好地助力金融企業(yè)將大模型應(yīng)用到各種真實場景,百川智能還在官網(wǎng)發(fā)布了Baichuan4-Finance全鏈路領(lǐng)域增強的技術(shù)報告,詳細闡述了包括“領(lǐng)域自約束訓(xùn)練”在內(nèi)的各項技術(shù)細節(jié)。此舉不僅將極大增強金融行業(yè)對大模型的認知,還將有效提升金融企業(yè)部署大模型的能力與意愿。
攻克了專項能力和泛化能力平衡問題這一模型落地應(yīng)用的最大阻礙后,Baichuan4-Finance能夠在效率提升、風(fēng)控合規(guī)、客服、決策支持等諸多層面為金融行業(yè)帶來全方位的價值提升。例如,它能夠幫助金融從業(yè)者處理文檔審核、客戶咨詢、產(chǎn)品營銷等大量日常工作,還能依托深厚的金融專業(yè)知識和法律法規(guī)理解能力,為機構(gòu)提供精準的風(fēng)險識別和合規(guī)保障。此外,還可以憑借強大的數(shù)據(jù)分析能力為管理層提供專業(yè)的市場洞察和決策建議。
FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)作為金融領(lǐng)域全新的評測體系,兼具專業(yè)性與實用性,由兩個方向的評測基準構(gòu)成。
其中,F(xiàn)LAME-Cer 主要聚焦模型的專業(yè)金融能力評測,涵蓋了CPA、CFA、FRM 等14類權(quán)威金融資格認證;FLAME-Sce 則著重于模型的場景應(yīng)用能力評估,包含10個一級核心金融業(yè)務(wù)場景、21個二級細分金融業(yè)務(wù)場景以及近百個三級金融應(yīng)用任務(wù)。
FLAME-Cer評測結(jié)果顯示,Baichuan4-Finance在銀行、保險、基金、證券等多個資格認證領(lǐng)域的準確率均突破了95%,整體準確率93.62%,超出GPT-4o近20%。
在FLAME-Sce評測中,Baichuan4-Finance一級核心金融業(yè)務(wù)場景的整體可用率達84.15%,其金融數(shù)據(jù)計算、金融知識理論等場景的可用率更是超過90%,實際應(yīng)用場景中的表現(xiàn)優(yōu)秀。
不僅如此,在國內(nèi)主流開源金融評測基準FinanceIQ上Baichuan4-Finance同樣超越了GPT-4o,整體準確率達到79.23%,領(lǐng)先GPT-4o近13%。
(責(zé)任編輯:朱赫)