性能碾压GPT

机器之心报道

编辑：陈陈

Devstral 是本地部署和设备端使用的理想之选。

法国 AI 初创公司 Mistral 强势回归，再次大力投身开源 AI 社区。先前，其因未开源 Medium 3 大模型而受到开发者广泛批评。

刚刚，该公司宣布，他们与开源初创公司 All Hands AI（Open Devin 的创建者）合作，发布了全新的开源语言模型 Devstral，拥有 240 亿个参数 —— 比许多竞争对手的模型小得多，所需的算力也低得多。

因而，Devstral 可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行，是本地部署和设备端使用的理想之选。

值得一提的是，该模型现已根据宽松的 Apache 2.0 许可证免费提供，允许开发者和组织不受限制地部署、修改和商业化。

Mistral 表示，虽然典型的 LLM 擅长编码任务，例如编写独立函数或代码补全，但它们难以解决现实世界的软件工程问题。在现实世界中，需要在大型代码库中对代码进行上下文关联，以识别不同组件之间的关系，并识别复杂函数中的细微错误。

Devstral 的设计初衷就是为了解决这个问题。它能解决真实的 GitHub 问题；还能运行在 OpenHands 或 SWE-Agent 等代码智能体框架上。

在顶级 SWE 基准测试中，Devstral 表现优于其他大型模型。

具体而言，Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分，领先于先前发布的所有开源模型，并领先于包括 GPT-4.1-mini 在内的多个闭源模型，它比 GPT-4.1-mini 高出 20 多个百分点。

注：SWE-Bench Verified 是一个专门用于评估 AI 编程能力的基准测试，主要测试 AI 模型在真实 GitHub 代码库问题（如 bug 修复、功能实现）上的表现。

在相同的测试框架（OpenHands，由 All Hands AI 提供）下进行评估时，Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。

最后，Devstral 可通过 Mistral 的 Le Platforme API 访问，型号为 devstral-small-2505，定价为每百万输入 Token 0.10 美元，每百万输出 Token 0.30 美元。

很多网友已经用起来了！