用开源的MoE模型以小博大,Mistral AI建立欧洲自己的OpenAI
前言:
在过去的几年里,整个开源社区已经围绕MoE模型展开了深入的研究和探索,但鲜有性能优异的MoE开源模型问世。
作者 | 方文三
图片来源 | 网 络
开源MoE模型有点东西
今年9月,Mistral AI推出了其首个语言模型Mistral7B,具备73亿参数,并在基准测试中超越了Meta的Llama2等参数更大的先进开源模型。
Mistral AI为其LLM设计了一种更高效、更具成本效益的训练方法,使得其模型的运营成本不到OpenAI或谷歌最佳大模型的一半。
重要的是,该模型基于Apache2.0许可发布,除了归属之外,使用者无需遵守任何使用或复制限制。
无论是业余爱好者还是数十亿美元的大公司,只要具备在本地运行该系统的能力或愿意支付所需的云资源费用,均可使用。
近日,Mistral AI再次开源了他们的MoE(Mixture of Experts)大模型Mixtral8x7B。
MoE(Mixture of Experts)在Transformer模型中的应用旨在提高模型的处理能力和效率。MoE通过将大型模型分解为多个[专家]子模块实现这一目标。
每个专家负责处理输入数据的一个特定方面或子集。在MoE架构中,每个专家可能是一个小型的Transformer模型,专门处理特定类型的输入数据。
例如,一个专家可能专注于处理自然语言的语法结构,而另一个专家可能专注于理解语义内容。
Mixtral8x7B拥有46.7B的总参数量,但每个token仅使用其中12.9B参数。因此,Mixtral的实际执行速度和所需成本仅相当于一个12.9B的模型。
在性能上,它在大多数基准测试中超越了当前开源大模型的标杆Llama270B,并与GPT3.5不相上下。
Mixtral8x7B采用了与GPT-4相似但更为[精简]的架构:
①专家总数为8个,相较于GPT-4的16个减少了一半。
②每个专家拥有70亿参数,相较于GPT-4的1660亿减少了24倍。
③总参数为46.7亿,远低于GPT-4的1.8万亿,减少了38倍。
④上下文窗口大小与GPT-4相同,均为32K。
它巧妙地平衡了模型的复杂度和推理成本,即使在拥有庞大模型参数的情况下,也能保证高效的推理性能。
使得 MoE 模型在保持强大功能的同时,也具备了更优的实用性和经济性。
创始人的背景影响着企业的特质
Mistral AI的创始人团队源自llama团队和DeepMind,天然具备开源精神,这也一定程度上推动了他们采取开源策略。
CEO Arthur Mensch曾在DeepMind巴黎办公室工作,而CTO Timothée Lacroix和首席科学家Guillaume Lample则在Meta共同参与了Llama系列的研发。
得益于创始团队与技术团队的高素质,Mistral AI的小型模型及MoE模型在性能与参数比例方面表现卓越,推理成本亦具有显著优势。
Mistral AI创始人Mensch强调,小型模型的策略是有意为之。他认为,借助小型模型,Agents的开发和应用将变得更加便捷。
若在GPT-4上运行Agents,高昂的推理成本可能导致资金迅速耗尽。
llama2的开源对生成式AI应用生态构成利好,有助于AI应用公司节省大量模型预训练成本。
Mistral AI坚信其技术以开源软件的形式共享,让任何人都可以自由地复制、修改和再利用这些计算机代码。
这为那些希望迅速构建自己的聊天机器人的外部开发者提供了所需的一切。
值得关注的是,该公司在最新一轮融资中成功筹集3.85亿欧元(约合4.15亿美元),使得这家仅有22名员工的公司估值飙升至约20亿美元。
参与此次投资的企业包括硅谷知名风险投资公司Andreessen Horowitz(a16z)、英伟达以及Salesforce等,金额达到1.2亿欧元。
六个月前,Mistral AI成立仅数周,员工人数仅为6人,尚未推出任何产品,却凭借7页PPT成功斩获1.13亿美元融资。
由Lightspeed Venture Partners领投,欧洲多家投资机构以及前谷歌首席执行官Eric Schmidt、法国亿万富翁Xavier Niel和法国广告巨头JCDecaux参与投资。
自首次亮相以来,其估值已增长超过七倍,成为欧洲最成功的大模型公司。
开源并不意味着回避商业化
欧洲拥有超过100家500强企业,主要集中在汽车、石油和天然气、制药、电信、银行等传统行业。
这些企业具备充足的付费能力,并对先进技术解决方案有强烈需求。
另一方面,欧洲的经营环境具有特殊性,如严格的监管和技术透明度要求,例如GDPR和欧盟AI法案等。
欧洲的AI独角兽更有可能适应这些法规,并有望获得更多支持。
Mistral AI虽提供两款可直接下载的模型,但现阶段最佳之选仅可通过API获取:该公司拟借助基础模型盈利。
故Mistral AI今日推出开发者平台测试版,旨在令其他企业可通过付费API方式使用Mistral AI之模型。
Mistral团队具备打造前沿闭源LLM的实力,与OpenAI、Anthropic比肩,却选择为企业端提供开放模型,满足个性化定制需求,此乃契合企业差异化战略。
展望未来,Mistral AI最佳商业化策略应为服务高价值客户,尤其是注重开放性、数据安全及模型能力之欧洲大型企业。具体商业化形式包括:
①出售开源模型定制版:针对企业实际应用场景,Mistral AI可修改并出售定制化模型,满足其数据IP顾虑及个性化需求。
②标准化商业化API:此路径与闭源厂商产品形态相近。虽开源模型API/平台目前尚无成功商业实践,但MosaicML在该领域收入颇丰。
③模型推理平台:为企业提供模型服务、RAG及定制化服务等能力。此平台与现有模型推理基础设施相似,但Mistral AI对模型训练细节可实现更彻底优化。
结尾:
开源模型的商业化运用尚未经受充分检验,公有云服务提供商完全具备提供开源模型、进入欧洲市场的实力。
尤其是Mistral AI,其目标是一款轻量级的语言模型,企业运用时将不受高门槛限制。
所以当前所面临的最大挑战并非仅在于训练出优秀的模型,更在于寻找关键的企业合作伙伴。
部分资料参考:阿尔法公社:《用MoE技术和开源模型建立差异化 Mistral AI获4.15亿美元融资》,新智元:《8x7B开源MoE击败Llama 2逼近GPT-4》,OpenMMLab:《距离GPT-4更近一步?Mistral AI开源Mixtral MoE模型》,Founder Park:《Mistral AI:欧洲最强大模型团队的现状及商业未来》
原文标题 : AI芯天下丨产业丨用开源的MoE模型以小博大,Mistral AI建立欧洲自己的OpenAI
图片新闻
最新活动更多
-
即日-12.5立即观看>> 松下新能源中国布局:锂一次电池新品介绍
-
12月12日火热报名中>>> STM32全球线上峰会
-
即日-12.18立即报名>>> 【在线会议】Automation1微纳精密运动控制系统
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26立即报名>>> 【在线会议】村田用于AR/VR设计开发解决方案
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论