#清华大学公布3月LLM排行榜# Claude3作为智能体表现超越GPT4

2024-04-18 17:44:06 浏览：184 作者：管理员

清华大学基础模型研究中心新发布了 2024 年 3 月的《SuperBench大模型综合能力评测报告》。

该报告选取了 14 个海内外具有代表性的模型。【图2】

并基于语义、代码、对齐、智能体和安全等五个大类，28 个子类进行评测。【图3】

报告显示，整体而言，GPT-4 系列模型和 Claude-3 等国外模型在多个能力上依然处于领先地位。

而国内头部大模型 GLM-4 和文心一言 4.0 表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小。

完整报告： https://cloud.tsinghua.edu.cn/f/47717c3407bb4d279e0c/