在2024世界人工智能大会(WAIC)的MiniMax展位上,呈现出戏剧性一幕:当有记者提到一位员工的真实名字时,公司同事很难跟该员工本人对应起来。
这与MiniMax的管理方式有关。在公司内部,同事彼此之间只称呼花名,很多人的微信昵称也是自己的花名。对于创始人闫俊杰,员工也都称呼他为IO(花名)。
在员工眼中,闫俊杰是一位很有亲和力的管理者,他说话声音很轻,总是面带笑容。在展位跟媒体交流时,他一直保持着倾听的姿态,说话不疾不徐。
作为一位低调的技术型创业者,闫俊杰曾担任过商汤副总裁、研究院副院长和智慧城市事业群CTO。2021年12月,在商汤上市前夕,闫俊杰离开商汤,创立了MiniMax。
MiniMax早期投资人、明势资本创始人黄明明认为,从创业时间点的选择来看,闫俊杰是真的对AGI有信仰。
目前,MiniMax已完成A+轮融资,最新一轮融资由阿里领投,金额为6亿美元,公司估值突破25亿美元,其投资方还有腾讯、红杉中国、高瓴、IDG、米哈游等。
从创业第一天开始,闫俊杰就坚持模型、产品两条腿走路。在他看来,一切都以技术为先,只有大模型底座搭建好了,才能“长”出更有价值的应用。
因此,在2023年6月,大部分国内公司还在迭代稠密模型(dense model)、MoE(混合专家系统)模型尚未成为行业共识时,MiniMax就花了80%以上的精力下注MoE。
虽然过程历经坎坷,但闫俊杰最后还是“赌”对了。
2024年1月,MiniMax发布了国内首个基于MoE架构的千亿参数量级模型——abab 6;4月底,又迅速迭代并推出abab 6.5系列模型。在各类核心能力测试中,abab 6.5也接近了GPT-4、Claude-3、Gemini-1.5等世界领先的大语言模型。
探索MoE的好处不限于此。在闫俊杰看来,这次磨砺让他们不会被局限在只做公开的东西,也敢去做上限更高、要靠自己探索(的东西)。
不过,闫俊杰也认为,只有技术好是没用的,一年之后,一旦失去“AI滤镜”,大家会从商业化的角度来评价公司。“我觉得短期内最重要的是AI技术的进步。一年之后,商业化一定是非常重要的。”
在2024世界人工智能大会上,闫俊杰接受了《中国企业家》等媒体采访。
以下为采访整理,有删减:
01
拼价格不是坏事,可以倒逼技术创新
问:你对WAIC的第一印象是什么?
闫俊杰:大会的主题是跟安全治理相关,(提出这些问题)还是挺及时的,如AI安全、治理、版权等问题。假设我用了你们的新闻来训练,这算不算侵权?我觉得这些都是挺迫切的(问题)。
我们过去一年确实开始遇到这样的问题了。面对这种问题,也没法靠一个企业来解决。比如用一篇文章来训练到底有没有侵权?如果侵权了,是侵了平台的权利,还是文章作者的权利?
问:现在已经开始思考这些问题了吗?
闫俊杰:不是思考,其实是遇到了。比如在海外,有好几家公司起诉OpenAI了。在中国,我们也开始遇到类似的挑战了。
比如训练数据。你的模型有没有用到公开数据?如果迅速出来了,你的模型获益了,要不要给提供数据的人付钱呢?
此外还有监管的问题。比如,模型输出的内容有没有突破一些红线?该怎么来算?
再比如用到一个语料要付钱,但如果用这个语料训练模型说错了话,提供语料的人是不是要赔钱?有很多这样的问题。
坦白说,这种问题不是仅靠一家企业能解决的。首先,肯定得需要政府来组织,并且它有时候涉及的不止一个国家,海外可能也会有用户,也会有相应的数据。其次,即使只在中国,我觉得目前技术往前走了一步,但各种各样的法律法规还需要跟上。
问:有从业者觉得国内有点太卷了,国外可能没那么卷,你看到的情况是这样的吗?
闫俊杰:我觉得海外也很卷了,竞争都很激烈。我觉得核心是中国跟美国的基本面不太一样,比如美国最好的模型显然比国内最好的模型要强,这是事实;海外公司本来的品牌也比中国公司的品牌要好,至少对海外来说是的。
但是它也有缺点,就是没有工程师红利。比如说同样价值30亿美元的公司,在中国公司的工程师肯定比在硅谷多很多,虽然最顶尖的可能有差距,但是平均水平其实是更强的。
如果是平均水平乘以工程师的数量,那么相同水平或相同估值的中国公司,工程师一定更多。
问:主要是人才吗?
闫俊杰:对。我自己觉得中国确实还是有工程师红利的,这是一个客观事实,可能都不是30%或者50%的差距,而是3~5倍的差距。
第二,移动互联网时代的中国公司有很多优秀的产品、商业,这东西其实也很强。所以我觉得在海外,我们虽然没有品牌优势,一开始也没有技术优势,但是可以有工程师红利,有其他很多积累,其实就是“田忌赛马”。
问:你如何看待行业里头部效应越来越明显的趋势?
闫俊杰:其实中国还没有美国明显,你看美国的那几家创业公司,Adept、Inflection都没有了,Character AI可能马上也没有了。
问:你对Character AI这件事情怎么看?他们跟你们的产品有点像。
闫俊杰:今年你看他们很多功能在参考我们的功能,我觉得这就是工程师红利,商业化一定是个很重要的事。
问:后续它们会不断被大厂收购吗?因为它们自己难以维持。
闫俊杰:我觉得它们(美国创业公司)被大厂收购了也无所谓,也正常,他们并不觉得失败。
问:MiniMax也是创业公司,会不会也有这样的担忧?
闫俊杰:我觉得核心还是独立发展。因为一家公司不管是自己独立做还是怎么样,核心还是看你给用户创造多大价值,这才是最本质的。不管怎么样,本质上都是看你的技术有多好。技术能做得好,能够把用户服务得好,这才是最本质的。
问:相比国外,在国内有哪些挑战是需要你们解决的?
闫俊杰:坦白说,我觉得国内大部分公司还没有形成差异化,模型水平、产品都差不多,所以就会变成拼价格。但我觉得这不是坏事,这其实是逼着大家能够更好地做技术创新。
问:MiniMax主要的差异化是什么?
闫俊杰:我觉得这个不是说就要跟别人有什么不一样。根源上还是想要有什么东西或有什么问题,然后再往这个比较大的问题上努力,这个过程中自然就会有不一样。
问:你们大的问题是什么?
闫俊杰:我觉得我们还是很明显的,就是渗透更多的用户。在这一过程中,就需要我们的技术变得很强。
02
技术为先,killer APP三年才会出现
问:MiniMax主要的模式是to C?C和B的体量完全不一样。
闫俊杰:我们现在的C的体量也比别人要大挺多的。
问:部分友商可能明确to B会占80%,to C会占20%,你们有这种比例的定位吗?
闫俊杰:我们没有这个定位。我们只有一个点,就是用户渗透率是多少。再简单一点就是我们的模型被使用次数。
问:效率类和娱乐类两个产品你都做,这两个产品你觉得哪个能更快地跑出来?
闫俊杰:现在技术其实也在不停进步,比如一年之后的技术大概率不是现在的技术,产品的体验又大部分来自模型的能力。所以基于假设的话,我觉得大概率明年最大的产品可能都不是现在的。
问:但是你们星野现在的确跑得挺快了。
闫俊杰:我觉得在今年最大DAU的产品,到年底的时候在中国可能是1000万DAU,今年我们的目标就是什么产品能到1000万DAU。但是明年可会有1亿DAU的产品,它可能不是现有的产品,可能是另外一个形态。
问:你现有的产品明年不会变成1亿DAU吗?
闫俊杰:我觉得我们现在的产品应该是能看到千万DAU,但还看不到亿级(DAU)。
问:你觉得现在还看不到killer APP(杀手级应用)吗?
闫俊杰:举个例子,现在抖音大概6亿DAU,今日头条是1亿DAU,今日头条算不算killer APP?
但在今日头条之前,当时最大的是内涵段子,可能有2000万DAU,那算不算呢?
如果变成在这个时代里面最大的APP,或者在AI时代最大的APP,我觉得我还是挺有机会的。但是现在这个APP肯定还没那么大,我觉得可能要三年之后才会大众化。但是没关系,当你能做到第一个,你的能力变强了、资源变多了、技术能力变好了,大概就可以做出来。
这个东西就一步步来,我不认为我现在做的可能就是三年之后的APP。
问:做完MoE之后,下一步你觉得应该是哪个方向?
闫俊杰:我们还是做了很多技术创新的,不光是MoE。比如一些transformer的改进,就是怎么样能让它支持无限的上下文;我们的合成数据也做了很多改进。我觉得MoE给我们的收获,不光是MoE本身,对我们来说最大的价值是说当有个方向它能提升几倍,但是它没有开源,也没有公开的东西,我要把一个几倍的东西靠自主能力做出来,这个过程中的收获是比较大的。
当我们把这个事做完之后,现在有一些更新的技术,比如怎么样做支持无限长图上下文的transformer,怎么样来做合成数据,怎么样用更低精度的方式来训练模型,这种东西我们都敢做了。
相当于我们就不会被局限在只做公开的东西,我们敢去做上限更高、要靠自己探索(的东西)。
问:MiniMax还会做新的产品吗?
闫俊杰:之前不敢做,但是做MoE之后我们就敢做。我觉得经历MoE之后,我们基本上就比较敢来做很大的(创新)。
视频可能下个月会出来,在星野和海螺AI里面也可能会有应用场景。
问:您这边有跟Sora做过对比吗?
闫俊杰:有。
问:Sora一直没有公开,你们是怎么去做对比的?
闫俊杰:我们做模型不是算法来评测,我们公司里面有一些很专业的视频创作者和音乐创作者,比如做音乐模型的运营是一个非常专业的音乐创作者,评估视频模型的是一个非常专业的视频创作者。举个例子,比如说生成40首歌让他盲听,看他觉得哪个好哪个不好。当他也区分不出来真实音乐和AI生成音乐的时候,它的能力就够强了。
问:MiniMax有文生文、文生语音,马上有文生音乐,这三个方向哪个能最快冲到全国第一?
闫俊杰:现在我们的文生语音就是行业最好的,但这个东西我觉得没那么关键,文本模型才是最关键的,相当于文本模型能提升10个点,其他模块自然也能提升。语言模型还是最本质的,其他东西其实都是自然的衍生。
问:下个月文生音乐/视频一起推,是这个意思吗?
闫俊杰:更主要的还是我们文本模型变得更强,我们只是顺带做出来音乐、视频这些东西。
问:OpenAI好像有专门的一个团队在做视频。
闫俊杰:这个东西在OpenAI也是一样的。OpenAI做GPT的团队可能是几百个人,可能有几万张卡;但做视频的就只有十几个人,可能就1000张卡。它其实就是很小的,只是放在中国,大家觉得这个东西很多,其实不是的。
问:在短期内,你最明确的一个或两个目标是什么?
闫俊杰:首先是错误率,我们的错误率还有继续降低的空间。包括GPT-3,为什么用户没那么多?原因就是错误率太高了。
问:现在GPT-5放出来的标准是什么?
闫俊杰:我觉得一个标准就是错误率能变得比较低,比如错误率变成3%。
问:你在商业化方面的第一个目标是什么?
闫俊杰:用户规模。
问:MiniMax在技术和商业化这二者之间怎么平衡?
闫俊杰:技术是不是在线,这决定你是不是一家合格的AI公司。如果技术不够好,可能它就应该被淘汰掉。
但是光技术好是没用的。现在(大家)还有AI滤镜,但是一年之后,那可能不完全是看技术了,可能会从商业化角度来看这家公司。所以我自己觉得短期内最重要的是AI技术的进步,一年之后,商业化一定是非常重要的,事实上MiniMax这方面的进展也是非常快的。