近日,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式公布自家的多模态大模型研究成果MM1,这是一个具有高达 30B 参数的多模态 LLM 系列,在上下文预测、多图像和思维链推理等方面具有不错的表现。不过在论文中可以看到,在图像推理方面,MM1的单图像token数只有720个,在涉及到多图形应用时处理效率可能会降低。
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在2024苹果股东大会上,苹果CEO蒂姆库克表示,今年将在GenAI领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队也开始转向GenAI。苹果近期这些动作向外界传达了加注GenAI的决心,目前多模态领域的生成式人工智能技术和产品非常火爆,以OpenAI的Sora为代表,在国内目前也有抖音云雀、百度文心一言和百川大模型等产品,苹果当然也想要在该领域有所建树。