时隔两月,Mistral AI终于上新Medium 3,近期还有「One more thing」

内容摘要时隔两月,Mistral AI 终于又上新了。「今天,我们欣喜地宣布推出 Mistral Medium 3,进一步提升语言模型的效率和可用性。」据官方博客介绍,Mistral Medium 3 处于一个新的性能层级,介于轻量级和大规模模型之

时隔两月,Mistral AI 终于又上新了。

「今天,我们欣喜地宣布推出 Mistral Medium 3,进一步提升语言模型的效率和可用性。」

据官方博客介绍,Mistral Medium 3 处于一个新的性能层级,介于轻量级和大规模模型之间。该模型在关键基准测试中优于 GPT-4o 甚至 Claude 3.7 Sonnet。

只是 Mistral Medium 3 并未开源,目前可通过 Mistral 的官网和 API 或其合作伙伴的 API 使用。Mistral Medium 3 将于周三上线亚马逊云科技的 Sagemaker 平台,后续也会登陆其他主机平台,包括微软的 Azure AI Foundry 和谷歌的 Vertex AI 平台。

该模型专为企业使用而设计,其性能在基准测试中达到了 Claude 3.7 Sonnet 的 90% 以上,但成本仅为后者的 1/8 —— 输入每百万 token 仅需 0.4 美元,输出每百万 token 仅需 2 美元。相比之下,Sonnet 的输入 / 输出价格分别为 3 美元和 15 美元。

另外,Mistral AI 还预告了「One more thing」:

随着三月份 Mistral Small 和今天 Mistral Medium 的发布,我们在接下来的几周内正在筹备一款「大型」产品,这早已不是什么秘密了。即使是我们的中型型号,其性能也远超 Llama 4 Maverick 等旗舰开源型号,我们非常期待「揭开」未来的神秘面纱 :) 

会是什么重磅发布?值得我们期待一下。

优于 GPT-4o 和 Claude 3.7 Sonnet 的性能

基准测试表明,Mistral Medium 3 在软件开发任务中表现出色。在 Humaneval 和 MultiPL-E 等编程测试中,它的表现与 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4o 模型不相上下,甚至更胜一筹。

除了学术基准测试外,团队还报告了更能代表实际用例的第三方人工评测。

根据第三方的人类评估,在 82% 的编程场景中,它优于 Llama 4 Maverick,并且在近 70% 的案例中超过了 Command-A。

该模型在不同语言和模态上也具有很强的竞争力。与 Llama 4 Maverick 相比,它在英语(67%)、法语(71%)、西班牙语(73%)和阿拉伯语(65%)中的胜率更高,并且在多模态性能方面表现出色,在 DocVQA(0.953)、AI2D(0.937)和 ChartQA(0.826)等任务中取得了领先的分数。

Mistral Medium 3 针对企业整合进行了优化。它支持混合部署和本地部署,提供定制化后训练,并且能够轻松连接到业务系统。据 Mistral 称,它已经在金融服务、能源和医疗保健等行业的组织中进行测试,用于支持特定领域的业务流程和面向客户的解决方案。

企业级「ChatGPT」:Le Chat Enterprise

与此同时,Mistral 还推出了 Le Chat Enterprise。

这是一款面向企业的聊天机器人服务,今年早些时候就推出了私人预览版,但今天正式全面上市。

用法如下:

Le Chat Enterprise 可通过网络和移动应用程序使用,它就像 ChatGPT 的竞争对手,但它是专为企业及其员工打造的。考虑到了用户可能会跨不同的应用程序和数据源工作,它将人工智能功能整合到一个单一的、隐私优先的环境中,实现深度定制、跨职能工作流和快速部署。

Le Chat Enterprise 提供了 AI「智能体」构建器等工具,并将 Mistral 的模型与 Gmail、Google Drive 和 SharePoint 等第三方服务集成。

此外,Le Chat Enterprise 即将支持 MCP——Anthropic 为连接 AI 助手和数据所在系统及软件而制定的标准。包括谷歌和 OpenAI 在内的主要 AI 模型提供商,都已经在今年早些时候宣布将采用 MCP。

更多信息,可参考官方博客。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1