中文Mixtral混合专家大模型（Chinese Mixtral MoE LLMs）

2024-03-07 21:29:25 浏览：369 作者：管理员

中文Mixtral混合专家大模型（Chinese Mixtral MoE LLMs）
地址：github.com/ymcui/Chinese-Mixtral
本项目基于Mistral.ai发布的Mixtral模型进行开发，该模型使用了稀疏混合专家模型（Sparse MoE）架构。本项目利用大规模中文无标注数据进行了中文增量训练，得到了中文Mixtral基础模型，并且进一步通过指令精调，得到了中文Mixtral-Instruct指令模型。该模型原生支持32K上下文（实测可达128K），能够有效地处理长文本，同时在数学推理、代码生成等方面获得了显著性能提升。使用llama.cpp进行量化推理时，最低只需16G内存（或显存）。
项目主要内容