近日,權(quán)威大模型評(píng)測(cè)基準(zhǔn)SuperCLUE發(fā)布最新《中文大模型基準(zhǔn)測(cè)評(píng)2024年10月報(bào)告》。其中,由中國(guó)電信打造的星辰語(yǔ)義大模型TeleChat2,作為央企大模型代表,憑借出色效果,綜合能力位列大模型第一梯隊(duì)。TeleChat2在理科“工具調(diào)用”維度排名前二,在Agent智能體總榜排名并列第二。
數(shù)據(jù)來(lái)源:SuperCLUE
TeleChat2-35B以更小參數(shù)量和更佳效果獲得開源模型排行榜銅牌,綜合效果超過Llama-3.1-70B-Instruc和 Llama-3.2-90B-Instruct等較大參數(shù)模型。
數(shù)據(jù)來(lái)源:SuperCLUE
星辰語(yǔ)義大模型由中國(guó)電信創(chuàng)新研發(fā)并不斷迭代突破。TeleChat2系列是在星辰語(yǔ)義大模型TeleChat發(fā)布以來(lái)推出的第二代版本。
今年9月,TeleAI正式發(fā)布并開源了首個(gè)基于全國(guó)產(chǎn)化萬(wàn)卡集群和國(guó)產(chǎn)深度學(xué)習(xí)框架訓(xùn)練的千億參數(shù)大模型 TeleChat2-115B,近日又進(jìn)一步開源了TeleChat2-3B、7B和35B,以適配不同場(chǎng)景的應(yīng)用需求,構(gòu)建了全尺寸大模型開源布局。
超強(qiáng)工具使用及Agent能力
本次最新的SuperCLUE10月報(bào)告覆蓋43個(gè)國(guó)內(nèi)外有代表性的大模型,采用多維度、多層次的綜合性測(cè)評(píng)方案,由理科、文科和Hard任務(wù)三大維度構(gòu)成,評(píng)測(cè)題目總量超過2900道。理科任務(wù)方面,TeleChat2展現(xiàn)了極強(qiáng)的函數(shù)調(diào)用能力,在工具調(diào)用維度排名前二。文科任務(wù)方面,TeleChat2在語(yǔ)言理解、長(zhǎng)文本等維度表現(xiàn)突出。Hard任務(wù)方面,TeleChat2在指令遵循維度表現(xiàn)優(yōu)異,展現(xiàn)了優(yōu)秀的復(fù)雜推理能力。
為了提高模型性能,TeleAI團(tuán)隊(duì)在數(shù)據(jù)維度和后訓(xùn)練階段進(jìn)行了優(yōu)化。在數(shù)學(xué)能力方面,通過抽取知識(shí)點(diǎn)合成問答數(shù)據(jù),并結(jié)合數(shù)學(xué)RM(獎(jiǎng)勵(lì)模型)篩選高質(zhì)量數(shù)據(jù)。在代碼能力方面,抽取高質(zhì)量代碼函數(shù)合成功能實(shí)現(xiàn)代碼,并通過單元測(cè)試確保代碼質(zhì)量。對(duì)于指令遵循能力,通過指令進(jìn)化構(gòu)建大量數(shù)據(jù)并進(jìn)行腳本校驗(yàn),從而大幅提升模型效果。在后訓(xùn)練階段,通過模型微調(diào)、權(quán)重融合和DPO(直接偏好優(yōu)化)進(jìn)一步提升效果。微調(diào)階段,使用IFD(指令跟隨難度)和 RFT(拒絕采樣微調(diào))篩選數(shù)據(jù),并迭代優(yōu)化模型。權(quán)重融合階段,結(jié)合多個(gè)模型的優(yōu)勢(shì)獲得新權(quán)重。DPO優(yōu)化階段,專注于中等難度問題,迭代補(bǔ)齊模型能力。
不僅如此,TeleChat2系列模型還完成了Agent能力建設(shè),重點(diǎn)加強(qiáng)了模型在指令跟隨、任務(wù)拆解、工具調(diào)用等方面的能力和表現(xiàn)。在10月的SuperCLUEAgent總榜中,TeleChat2排名并列第二。
數(shù)據(jù)來(lái)源:SuperCLUE
TeleAI團(tuán)隊(duì)構(gòu)建了一個(gè)基于圖結(jié)構(gòu)和MutltiAgent(多智能體)的框架,通過細(xì)分工具場(chǎng)景,創(chuàng)建詳細(xì)的依賴關(guān)系圖,從而提升訓(xùn)練數(shù)據(jù)的真實(shí)性和復(fù)雜度。
同時(shí),利用MultiAgent的增強(qiáng)交互多樣性,并通過規(guī)則檢查,確保交互合理。此外,團(tuán)隊(duì)還將工具調(diào)用能力分為多個(gè)階段,為每個(gè)階段設(shè)計(jì)多樣化數(shù)據(jù),以避免模型僅學(xué)習(xí)表面格式,這使得模型效果提升了約15%。
全尺寸開源布局 適配多場(chǎng)景落地
TeleAI始終積極通過開源推動(dòng)大模型技術(shù)創(chuàng)新和國(guó)產(chǎn)化進(jìn)程,并為產(chǎn)業(yè)持續(xù)輸送領(lǐng)先的技術(shù)能力,加速應(yīng)用落地。早在今年前半年,就陸續(xù)開源了1B、7B、12B和52B參數(shù)的第一代TeleChat系列模型。最近,TeleChat2系列也已完成 3B、7B、35B和115B模型開源,逐步構(gòu)建了全尺寸開源布局,并吸引了國(guó)內(nèi)外廣大開發(fā)者的討論和使用。
憑借卓越的性能和開源生態(tài)貢獻(xiàn),星辰語(yǔ)義大模型在 Gitee開源社區(qū)獲得了“GVP-Gitee最有價(jià)值開源項(xiàng)目”。前不久,星辰大模型還被中國(guó)信息通信研究院(信通院)授予“可信開源大模型成熟度能力”認(rèn)證和“2024年度央國(guó)企開源項(xiàng)目典型案例”稱號(hào)。
憑借不同的參數(shù)配置和靈活的架構(gòu)設(shè)計(jì),TeleChat2系列模型可靈活適配于不同應(yīng)用場(chǎng)景、不同資源配置、不同延時(shí)條件、不同響應(yīng)速度的多樣化需求。目前,星辰語(yǔ)義大模型系列已在政務(wù)服務(wù)、智慧教育、經(jīng)營(yíng)分析、公文寫作等領(lǐng)域廣泛應(yīng)用落地。
在政務(wù)場(chǎng)景,星辰語(yǔ)義大模型已應(yīng)用于智能知識(shí)庫(kù)、智能受理助手、智能分類助手、智能客服機(jī)器人、智能語(yǔ)音座席助手等,助力政務(wù)工作提升工作效率。
在教育領(lǐng)域,星辰語(yǔ)義大模型落地教育聽力機(jī),輔助學(xué)生進(jìn)行英語(yǔ)口語(yǔ)對(duì)話練習(xí)、中英文寫作、中文詩(shī)歌創(chuàng)作等,提升他們的學(xué)習(xí)興趣和個(gè)性化體驗(yàn)。
在智慧辦公場(chǎng)景,基于星辰語(yǔ)義大模型的超強(qiáng)語(yǔ)義理解和總結(jié)能力,星辰慧記一站式會(huì)議助手能夠一鍵提煉會(huì)議紀(jì)要,實(shí)現(xiàn)會(huì)后總結(jié)秒生成,推動(dòng)企業(yè)更高效、更智能發(fā)展。
在本次參選SuperCLUE10月榜單的43個(gè)大模型企業(yè)中,TeleAI是唯一的央企大模型機(jī)構(gòu),同時(shí)TeleChat2系列大模型是基于全國(guó)產(chǎn)化萬(wàn)卡集群和國(guó)產(chǎn)深度學(xué)習(xí)框架訓(xùn)練完成。
開源地址:
GitHub:
https://github.com/Tele-AI/TeleChat2
Gitee:
https://gitee.com/Tele-AI/tele-chat2
ModelScope:
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:
https://modelers.cn/models/TeleAI/TeleChat2-115B