人工智能技術發(fā)展迅速,大模型、AGENT、具身智能、通用人工智能(AGI)等新概念和新技術層出不窮。大模型基準評測作為研究較為深入的領域,助力其他新技術的發(fā)展。AgentBench、ToolBench、ToolEval等是面向AGENT的代表性評測框架或數(shù)據集,通過搭建仿真環(huán)境,重點考察大模型與外界交互下完成復雜任務的能力,如網絡購物、數(shù)據庫操作等。SQA3D、Behavior-1k、Mini-BEHAVIOR等利用3D問答、空間操作等任務評估大模型在具身智能領域內的表現(xiàn)。
大模型基準評測還帶動了AGI的發(fā)展,微軟先后發(fā)布《通用人工智能的火花:GPT-4的早期實驗》和AGIEval評測數(shù)據集,通過數(shù)學、編程、視覺、醫(yī)學、法律、心理學等較困難的任務,證明GPT-4已進入AGI的早期階段。中國科學院和美國俄亥俄州立大學等先后推出AGIBench和MMMU評測數(shù)據集,從多模態(tài)、多學科、多粒度等多個維度衡量大模型距離AGI的差距。雖然當前AGI發(fā)展仍然處于初期階段,但通過基準評測的研究,可為未來AGI技術的發(fā)展提供思路。
2025年《政府工作報告》指出,持續(xù)推進“人工智能+”行動,將數(shù)字技術與制造優(yōu)勢、市場優(yōu)勢更好結合起來,支持大模型廣泛應用。
下一步,應該以大模型測試驗證工作為抓手,構建前瞻性、引領性的測評驗證及平臺服務,加速中國大模型技術創(chuàng)新、產品迭代和應用推廣,促進大模型領域重大研究成果產業(yè)化落地。
一、發(fā)展現(xiàn)狀
1.大模型應用評測需求強烈,急需面向產業(yè)的解決方案
當前,產業(yè)界對大模型行業(yè)應用場景的評估需求十分強烈,根據Meta等在《GAIA: A Benchmark for General AI Assistants》的測試結果顯示,人類針對某些實際應用場景的問題回答準確率為92%,而即使是帶有插件的 GPT-4 僅有15%的準確率,說明大模型在實際應用場景上仍然有較大的提升空間。中國信通院發(fā)布“方升”大模型基準評測體系,涵蓋測試指標、測試方法、測試數(shù)據集和測試工具關鍵四要素,重點強化行業(yè)和應用導向能力的考查。
自2023年下半年起,大模型已持續(xù)滲透到金融、醫(yī)療、軟件工程、教育、法律、科研、政務、電信、能源等多個垂直行業(yè)。據統(tǒng)計,超過50%的大模型基準評測數(shù)據集側重于考察模型的通用能力,但面向行業(yè)的基準評測已經取得顯著進展,行業(yè)評測數(shù)據集數(shù)量明顯增加,如金融領域的FinEval、PIXIU,醫(yī)療領域的PubMedQA、CMExam,軟件工程領域的CoderEval、OpsEval,電信領域的TeleQnA、NetEval等。大模型行業(yè)評測需要重點考察行業(yè)基礎知識和行業(yè)應用場景,由于行業(yè)數(shù)據的敏感性,70%的行業(yè)評測數(shù)據集側重于評估行業(yè)基礎知識,而在行業(yè)應用場景方面,智能客服、知識管理、數(shù)據分析、辦公助手、內容創(chuàng)作、代碼助手等是大模型的重點落地方向。
2.大模型基準評測“百花齊放”,全面賦能“產用管”關鍵環(huán)節(jié)
據不完全統(tǒng)計,目前產學研各界已經出現(xiàn)超過300種大模型基準評測的相關成果。僅2023年,新推出的評測數(shù)據集數(shù)量就超過200個。其中,較著名的大模型評測榜單包括Hugging Face推出的Open LLM Leaderboard和Chatbot Arena,以及國內的CompassRank、SuperCLUE和FlagEval等。高頻評測數(shù)據集包括MMLU、C-Eval、CMMLU、BBH、AGIEval、MBPP、HumanEval、GSM8K、MATHVISTA、MMMU等。大模型在評測數(shù)據集上的最佳測試分數(shù)不斷刷新,一定程度上反映出大模型的能力在持續(xù)提升。同時,基準評測的重要性也日益凸顯,已全面賦能大模型“產用管”各關鍵環(huán)節(jié)。在研發(fā)階段,基準評測被用于快速挖掘大模型當前的不足與痛點問題,推動大模型能力持續(xù)提升;在應用階段,基準評測用于大模型落地效果驗證,助力產品的選型(POC)測試和商業(yè)推廣;在管理階段,基準評測用于對大模型能力進行持續(xù)監(jiān)控,引導其正向發(fā)展。
3.評測效率影響模型迭代,企業(yè)級自動化評測平臺迎來新發(fā)展
大模型基準評測的關鍵流程包括測試需求分析、測試數(shù)據準備、測試環(huán)境準備、基準測試執(zhí)行、測試結果評估、測試報告生成、測試結果分析等。其中,測試數(shù)據準備和測試結果評估這兩步需要大量的人力投入,工作繁瑣。傳統(tǒng)的腳本化測試框架無法滿足高速迭代的業(yè)務需求,需要構建人工智能評測平臺來提升測試效率。
2023年,上海人工智能實驗室、北京智源研究院、天津大學等科研機構紛紛推出自研的基準測試平臺或框架,極大降低了基準評測的上手門檻。其中,上海人工智能實驗室的OpenCompass(司南)框架開源生態(tài)較為完善,兼容多個評測數(shù)據集和大模型,支持分布式測試等功能。為了實現(xiàn)測試結果的自動化評估,減少專家評估人力投入,北京智源研究院和智譜AI分別推出評估大模型JUDGELM和CRITIQUELLM,測試結果表明大模型評估和人工評估的符合度可超過90%。目前,已有包括華為、字節(jié)跳動等公司啟動企業(yè)級人工智能評測平臺的構建。
2023年6月8日,上海首家生成式人工智能(AIGC)質量檢驗檢測中心掛牌批籌,為AI大模型等智能軟件提供專業(yè)化“體檢”。掛牌初兩個月,這家AI質檢中心已出具75份“體檢報告”。主要面向生成式人工智能所涉及的計算機視覺、自然語言處理、內容生成等領域,聚焦人工智能生成內容的語義表達能力、邏輯推理能力、合成內容鑒別能力,以及功能、性能、安全性評估等,通過提供全方位的測評服務,以保障人工智能系統(tǒng)或應用的質量。對于一些大型復雜AI系統(tǒng)的檢測,甚至需要根據應用場景專門搭建檢測檢驗系統(tǒng),耗時可能長達半年,同時還需要研發(fā)大量相關技術與標準。近三年來,上海軟件中心為上海乃至長三角地區(qū)人工智能企業(yè)與應用方提供專業(yè)的第三方測評服務數(shù),年均超過500項,累計發(fā)布AI檢測相關標準30余項。通過質檢,廠商能更清晰地了解AI軟件的性能,對產品的迭代與優(yōu)化更有針對性。
2024年3月,國內首個智能機器人中試驗證平臺在上海成立,進一步加強智能機器人的應用賦能,主要聚焦三個方面:一是建設垂類大模型測試床,加速大模型落地進程;二是形成人工智能大模型工業(yè)軟件的自主可控測試平臺,建立工業(yè)產品準入門檻;三是形成基于區(qū)塊鏈的安全測試與性能測試平臺,為數(shù)據安全提供“可見可控”的解決方案。該中試驗證平臺可助力人工智能領域的理論研究和技術創(chuàng)新快速轉化為實際應用,推動技術從實驗室到市場的轉化,助力創(chuàng)新成果的商業(yè)化和規(guī)模化,將專注于垂類模型的安全能力評估,提高人工智能系統(tǒng)的整體安全性和可靠性,對人工智能在高風險領域的應用拓展尤為重要。
二、面臨的問題與挑戰(zhàn)
1.標準缺位
目前,AI檢測尚屬于企業(yè)自主行為,未來對于大模型的安全性、可解釋性、倫理風險等的檢測檢驗,尚未形成國家強制標準。
2.大模型“刷榜”問題頻出,新測試方法保障結果公正
少量大模型在訓練階段加入評測數(shù)據來完成模型“刷榜”,損害了大模型榜單的公平性和可信度,評測數(shù)據的污染和泄露是當前產業(yè)界急需解決的問題。
目前,國內的上海人工智能實驗室、上海交通大學、中國人民大學、昆侖萬維,以及國外的UC Berkeley、佐治亞理工大學等紛紛推出針對評測數(shù)據集污染的衡量指標和工具,可以支持包括MMLU、GSM8K等主流數(shù)據集的污染檢測,一定程度上緩解了數(shù)據污染的問題。
動態(tài)測試也逐步引入以保障評測結果的真實性。復旦大學推出LLMEval評測框架,通過從海量題庫中隨機抽樣的1000題來確保每次評測題目不重復。中國信通院創(chuàng)新性提出自適應動態(tài)測試方法,這些努力有助于解決大模型“刷榜”問題,提高評測結果的公正性。
三、促進人工智能檢驗檢測發(fā)展的相關建議
1.標準先行
檢測檢驗是行業(yè)話語權的重要標志,檢測標準往往是一個行業(yè)的發(fā)展風向標。人工智能飛速發(fā)展不能簡單套用傳統(tǒng)產業(yè)“先立標準后檢測”的“守底線”模式,而應采用檢測與標準同步發(fā)展的新型模式,以起到規(guī)范、引領產業(yè)的作用。
2.加強載體建設
深耕大模型、生成式人工智能等前沿領域,全力支撐大模型測試驗證與協(xié)同創(chuàng)新中心重大功能性平臺建設,做好大模型企業(yè)全鏈條服務,營造大模型產業(yè)發(fā)展活躍生態(tài)。
3.謹慎治理,構建高標準可控治理體系
支持探索大模型評測基準及工具,推動大模型自動評測技術發(fā)展。不斷完善監(jiān)管體系,督促大模型企業(yè)使用安全可控的技術手段開展自評估。推動通用大模型備案工作,為重點企業(yè)提供服務和指導,以爭取更多本市優(yōu)質的大模型產品上線服務。
來源:澎湃新聞2025-03-17
作者:蔣媛媛,上海社會科學院應用經濟研究所副研究員,王業(yè)強,中國社會科學院生態(tài)文明研究所研究員,吳苡婷,上??萍紙笾魅斡浾?。
