中文Mixtral混合专家大模型(Chinese Mixtral MoE LLMs) _tiknovel-最新最全的nft,web3,AI技术资讯技术社区

中文Mixtral混合专家大模型(Chinese Mixtral MoE LLMs)

2024-03-07 21:29:25  浏览:352  作者:管理员
中文Mixtral混合专家大模型(Chinese Mixtral MoE LLMs)

中文Mixtral混合专家大模型(Chinese Mixtral MoE LLMs)
地址:github.com/ymcui/Chinese-Mixtral
本项目基于Mistral.ai发布的Mixtral模型进行开发,该模型使用了稀疏混合专家模型(Sparse MoE)架构。本项目利用大规模中文无标注数据进行了中文增量训练,得到了中文Mixtral基础模型,并且进一步通过指令精调,得到了中文Mixtral-Instruct指令模型。该模型原生支持32K上下文(实测可达128K),能够有效地处理长文本,同时在数学推理、代码生成等方面获得了显著性能提升。使用llama.cpp进行量化推理时,最低只需16G内存(或显存)。
项目主要内容
   

评论区

共 0 条评论
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

【随机内容】

返回顶部