清华大学基础模型研究中心新发布了 2024 年 3 月的《SuperBench大模型综合能力评测报告》。
该报告选取了 14 个海内外具有代表性的模型。【图2】
并基于语义、代码、对齐、智能体和安全等五个大类,28 个子类进行评测。【图3】
报告显示, 整体而言,GPT-4 系列模型和 Claude-3 等国外模型在多个能力上依然处于领先地位。
而国内头部大模型 GLM-4 和文心一言 4.0 表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。
完整报告: https://cloud.tsinghua.edu.cn/f/47717c3407bb4d279e0c/