感謝IT之家網友 華南吳彥祖、航空先生 的線索投遞!
,IT之家從上海人工智能實驗室官方公眾號獲悉,6 月 7 日,上海人工智能實驗室、商湯科技聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型“書生?浦語”(InternLM)。“書生?浦語”具有 1040 億參數,是在包含 1.6 萬億 token 的多語種高質量數據集上訓練而成。
上海人工智能實驗室稱,全面評測結果顯示,“書生?浦語”不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測試任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越 ChatGPT 的成績,其中就包括中國高考各科目的數據集。
據介紹,“書生?浦語”聯合團隊選取了 20 余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:由伯克利加州大學等高校構建的多任務考試評測集 MMLU;由微軟研究院推出的學科考試評測集 AGIEval;由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集 C-Eval;由復旦大學研究團隊構建的高考題目評測集 Gaokao。
實驗室聯合團隊對“書生?浦語”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進行了全面測試,針對上述四個評測集的成績對比如下。
可以看到,“書生?浦語”不僅顯著超越了 GLM-130B 和 LLaMA-65B 等學術開源模型,還在 AGIEval、C-Eval 以及 Gaokao 等多個綜合性考試中領先于 ChatGPT;在以美國考試為主的 MMLU 上實現和 ChatGPT 持平。這些綜合性考試的成績反映出“書生?浦語”扎實的知識掌握程度和優秀的綜合能力。
雖然 “書生?浦語”在考試評測上取得優秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生?浦語” 受限于 2K 的語境窗口長度,在長文理解、復雜推理、撰寫代碼以及數理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題;這些局限使得大語言模型在開放場景中的使用還有很長的路要走。
四個綜合性考試評測數據集結果:
MMLU 是由伯克利加州大學聯合哥倫比亞大學、芝加哥大學和 UIUC 公共構建的多任務考試評測集,涵蓋了初等數學、物理、化學、計算機科學、美國歷史、法律、經濟、外交等多個學科。細分科目結果如下表所示。
AGIEval 是由微軟研究院在今年新提出的學科考試評測集,主要目標是通過面向的考試來評估語言模型的能力,從而實現模型智能和人類智能的對比。這個評測集基于中國和美國各類考試構建了 19 個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT 等重要考試。值得一提的是,在這 19 個大項有 9 個大項是中國高考,通常也列為一個重要的評測子集 AGIEval。下列表格中,帶 GK 的是中國高考科目。
C-Eval 是由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集。它包含了 52 個科目的近 14000 道考題,涵蓋數學、物理、化學、生物、歷史、政治、計算機等學科考試,以及面向公務員、注冊會計師、律師、醫生的職業考試。測試結果可以通過 leaderboard 獲得。
Gaokao 是由復旦大學研究團隊構建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。在 GaoKao 測評中,“書生?浦語”在超過 75% 的項目中均領先 ChatGPT。
分項評測:閱讀理解、推理能力表現出色
為了避免“偏科”,研究人員還通過多個學術評測集,對“書生?浦語”等語言模型的分項能力進行了評測對比。結果顯示,“書生?浦語”不僅在中英文的閱讀理解方面表現突出,并且在數學推理、編程能力等評測中也取得了較好的成績。
在知識問答方面,“書生?浦語”在 TriviaQA 和 NaturalQuestions 兩項評測上得分為 69.8 和 27.6,均超越 LLaMA-65B。
在閱讀理解方面,“書生?浦語”明顯領先于 LLaMA-65B 和 ChatGPT。浦語在初中和高中英語閱讀理解中得分為 92.7 和 88.9,? ChatGPT 得分為 85.6 和 81.2,LLaMA-65B 則更低。
在中文理解方面,“書生?浦語”的成績全面超越主要的兩個中文語言模型 ERNIE-260B 和 GLM-130B。
在多語翻譯方面,“書生?浦語”在多語種互譯中的平均得分為 33.9,顯著超越 LLaMA。
在數學推理方面,“書生?浦語”在 GSM8K 和 MATH 這兩項被廣泛用于評測的數學考試中,分別取得 62.9 和 14.9 的得分,明顯領先于 Google 的 PaLM-540B與 LLaMA-65B(得分為 50.9 和 10.9)。
在編程能力方面,“書生?浦語”在 HumanEval 和 MBPP 這兩項最具代表性的考評中,分別取得 28.1 和 41.4 的得分,明顯領先于 PaLM-540B(得分為 26.2 和 36.8)與 LLaMA-65B(得分為 23.7 和 37.7)。
此外,研究人員還對“書生?浦語”的安全性進行評測,在 TruthfulQA以及 CrowS-Pairs(主要評價回答是否含有偏見)上,“書生?浦語”均達到領先水平。
鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
2023年2月15日,湯臣倍健與美團買藥在北京舉辦了2023
2021年收入增長目標應能確保實現,2022年收入增長預計將
具體來看,一是簡化業務流程和材料,便利北京冬奧會相關區域內境
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛
,據索尼官方消息,新星粉,銀河紫,星光藍,三款全新配色Dua
,新氧數據顏究院發布《2021醫美行業白皮書》,白皮書顯示,