返回
科技

性能碾压GPT

2025-05-22 21:062

机器之心报道

编辑:陈陈

Devstral 是本地部署和设备端使用的理想之选。

法国 AI 初创公司 Mistral 强势回归,再次大力投身开源 AI 社区。先前,其因未开源 Medium 3 大模型而受到开发者广泛批评。

刚刚,该公司宣布,他们与开源初创公司 All Hands AI(Open Devin 的创建者)合作,发布了 全新的开源语言模型 Devstral,拥有 240 亿个参数 —— 比许多竞争对手的模型小得多,所需的算力也低得多。

因而,Devstral 可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行,是本地部署和设备端使用的理想之选。

值得一提的是,该模型现已根据宽松的 Apache 2.0 许可证免费提供,允许开发者和组织不受限制地部署、修改和商业化。

Mistral 表示,虽然典型的 LLM 擅长编码任务,例如编写独立函数或代码补全,但它们难以解决现实世界的软件工程问题。在现实世界中,需要在大型代码库中对代码进行上下文关联,以识别不同组件之间的关系,并识别复杂函数中的细微错误。

Devstral 的设计初衷就是为了解决这个问题。它能解决真实的 GitHub 问题;还能运行在 OpenHands 或 SWE-Agent 等代码智能体框架上。

在顶级 SWE 基准测试中,Devstral 表现优于其他大型模型。

具体而言,Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分,领先于先前发布的所有开源模型,并领先于包括 GPT-4.1-mini 在内的多个闭源模型,它比 GPT-4.1-mini 高出 20 多个百分点。

注:SWE-Bench Verified 是一个专门用于评估 AI 编程能力的基准测试,主要测试 AI 模型在真实 GitHub 代码库问题(如 bug 修复、功能实现)上的表现。

在相同的测试框架(OpenHands,由 All Hands AI 提供)下进行评估时,Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。 

最后,Devstral 可通过 Mistral 的 Le Platforme API 访问,型号为 devstral-small-2505,定价为每百万输入 Token 0.10 美元,每百万输出 Token 0.30 美元。

很多网友已经用起来了!

打赏
  • 0人打赏
    举报
关闭
同类新闻