Llama3开源模型被玩出花了,最近好有几个基于Meta Llama3的优化项目,都说性能比肩GPT-4o级别。
一个是Groq(就是做专有LPU芯片的那家)的Llama-3-Groq-Tool-Use Model,说是这个基于Llama3的完全微调,在 BFCL(伯克利函数调用)榜上排名第一,击败所有其他型号,包括 Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o 和 Gemini 1.5 Pro 等专有型号。它的训练特色是,不使用任何用户数据,只使用合成数据。
另一个是Nexusflow 发布 Athene-Llama3-70B 模型,也是由 Meta AI 的 Llama-3-70B 微调而成,这个模型使用的榜单是Arena-Hard-Auto,分数达到了 77.8%,接近于 GPT-4o (79.2%) 和 Claude-3.5-Sonnet (79.3%) 等领先的专有模型,与其前身Llama-3-70B-Instruct(得分率为 46.6%)相比是一个全面提升。这个模型的训练特色是针对 "从人类反馈中强化学习"(RLHF)策划了高质量的偏好数据。
所以无论是Groq的,还是Nexusflow的模型,模型优化最关键的东西就是数据,高质量的数据。还有,可以假想一下,如果Llama3的400B模型放出来,会发生什么事情?