AI 编程智能体配置实战:如何为每个角色选择最合适的模型

用 AI 编程工具写代码不难,但让多个 AI 智能体像一支真正的工程团队一样协作——这需要精心配置。本文分享我如何基于 OhMyOpenCode(omo)为 Claude Code 的每个智能体角色选择最合适的国产模型,以及背后的选型逻辑。

前言

我日常使用 Claude Code(通过 Anthropic 代理接入国产大模型)进行开发,配合 OhMyOpenCode 插件来管理智能体(Agent)的模型分配。这套配置已经稳定运行了几个月,覆盖了从代码探索、架构咨询到前端实现、文档写作的全流程。

核心思路很简单:不同任务需要不同的”思维方式”,而不同模型有不同的擅长领域。把对的模型放在对的角色上,整个系统的效率和质量会有质的飞跃。

智能体协作架构图
图1:智能体协作架构总览

我的模型阵容

先交代一下我用的模型全家桶,全部通过 Anthropic 兼容协议接入:

模型 厂商 核心特点
GLM-5.1 智谱 AI 综合能力强,逻辑推理稳健,中文理解出色
GLM-5-turbo 智谱 AI GLM-5.1 的快速版本,响应极快
Qwen3.5-plus 阿里巴巴 代码生成质量高,实现细节把控好
MiniMax-M2.7 MiniMax 性价比极高,响应速度快,适合轻量任务
Kimi-k2.5 Moonshot 长上下文理解优秀,创意表达和视觉理解强
GPT-5.4 OpenAI 推理天花板,复杂问题处理能力最强(通过国际通道)

智能体配置详解

1. Sisyphus(主编排者)→ GLM-5.1

Sisyphus 是整个系统的”大脑”,负责接收用户请求、拆解任务、分配给子智能体、汇总结果。它需要:

  • 全局视野:理解整个任务的上下文和依赖关系
  • 判断力:决定哪些任务可以并行、哪些需要串行
  • 中文沟通:与用户用中文交互,需要优秀的中文理解

为什么选 GLM-5.1:智谱的 GLM-5.1 在中文理解和复杂推理上表现稳定,作为主编排者需要的是”不犯大错”而不是”偶尔惊艳”。GLM-5.1 的稳健性让它在编排场景下值得信赖。

2. Prometheus(实现执行者)→ Qwen3.5-plus

Prometheus 负责将方案转化为代码。它需要:

  • 代码质量:生成的代码要能直接用,不是伪代码
  • 细节把控:变量命名、边界处理、异常处理都要到位
  • 框架理解:熟悉 Spring Boot、MyBatis、React 等主流框架

为什么选 Qwen3.5-plus:阿里的 Qwen 系列在代码生成上一直是国产模型的第一梯队。Qwen3.5-plus 在代码补全、重构、Bug 修复等场景下表现出色,尤其是 Java 和 TypeScript 生态的理解深度。

3. Oracle(架构顾问)→ GLM-5.1

Oracle 是只读的高质量顾问,在遇到架构决策、复杂 Bug、安全问题时才被咨询。它需要:

  • 深度推理:分析复杂系统间的 tradeoff
  • 表达清晰:把复杂问题解释得通俗易懂
  • 不输出代码:只给建议,不动手

为什么选 GLM-5.1:Oracle 的核心能力是”想清楚”而不是”写得快”。GLM-5.1 的推理链路清晰,回答结构化程度高,适合做顾问角色。与 Sisyphus 使用同一模型也保证了思维一致性。

4. Hephaestus(高质量实现)→ GPT-5.4

Hephaestus 是”精工细作”的实现者,配置为 high variant,只在需要高质量输出时才启用。它需要:

  • 顶级代码质量:架构清晰、设计模式正确、测试完备
  • 复杂问题解决:处理多系统交互、性能优化等高难度任务

为什么选 GPT-5.4:在推理天花板这个维度上,GPT-5.4 仍然是目前最强的。对于 Hephaestus 这种”压箱底”的角色,用最强的模型确保关键时刻不掉链子。虽然成本更高,但只在必要时调用。

模型能力象限图
图2:各模型在推理深度、代码质量、响应速度、性价比四个维度的定位

5. Explore(代码探索)→ MiniMax-M2.7

Explore 负责在代码库中搜索模式、理解代码结构。它的工作模式是”大量并发搜索 + 快速总结”。它需要:

  • 快速响应:经常被并行调用 2-5 个实例
  • 足够准确:不需要完美,但不能遗漏关键信息
  • 低成本:调用频率最高

为什么选 MiniMax-M2.7:Explore 是整个系统里调用频率最高的智能体,可能一个任务就要并行启动 3-5 个。MiniMax-M2.7 的响应速度和性价比让它成为这种”量大队”角色的最佳选择。

6. Librarian(外部参考搜索)→ MiniMax-M2.7

Librarian 负责搜索外部文档、查找开源实现示例、检索 API 文档。与 Explore 类似:

  • 高并发:经常与 Explore 同时启动
  • 搜索导向:核心能力是”找到”而不是”深度分析”

为什么选 MiniMax-M2.7:与 Explore 同理,Librarian 也是高频调用的搜索型智能体,性价比和速度优先。

7. Metis(预规划分析)→ GLM-5-turbo

Metis 在复杂任务开始前分析需求,识别隐藏意图和模糊点。它需要:

  • 快速响应:任务是”想清楚再动手”,不能等太久
  • 分析能力:识别需求中的矛盾、遗漏和风险
  • 足够准确:预规划不需要 100% 完美,够用就行

为什么选 GLM-5-turbo:Metis 的工作是”快速扫描”而不是”深度分析”。GLM-5-turbo 的快速响应特性让预规划不会成为瓶颈,同时保留了足够的分析能力。

8. Momus(计划审查)→ GPT-5.4

Momus 是”挑剔的审查官”,负责评审工作计划的质量、完整性和可执行性。它需要:

  • 高标准:能发现计划中的模糊点、遗漏和风险
  • 逻辑严密:审查需要滴水不漏
  • 不怕得罪人:直说问题,不糊弄

为什么选 GPT-5.4:审查需要的是”吹毛求疵”的能力,GPT-5.4 在发现逻辑漏洞和隐含假设方面表现最强。用最强的模型做审查,确保每个计划在执行前都经得起推敲。

9. Multimodal Looker(视觉理解)→ Kimi-k2.5

负责分析图片、截图、UI 设计稿等视觉内容。它需要:

  • 视觉理解:准确识别图片中的文字、布局、组件
  • 设计感知:理解 UI 设计意图
  • 中文 OCR:识别中文截图中的代码和文字

为什么选 Kimi-k2.5:Kimi 在多模态理解上,尤其是中文场景下的视觉理解表现突出。对中文截图、设计稿的识别准确率高。

任务类别配置

除了固定角色的智能体,OhMyOpenCode 还支持按任务类别分配模型。我按”任务复杂度 × 任务领域”来分配:

类别 模型 选型理由
deep(深度实现) GLM-5.1 需要综合推理能力,稳健可靠
ultrabrain(超脑) GLM-5.1 逻辑推理密集型任务
quick(快速任务) MiniMax-M2.7 单文件修改,速度优先
unspecified-low MiniMax-M2.7 低复杂度通用
unspecified-high GLM-5.1 高复杂度通用
visual-engineering(前端) Kimi-k2.5 视觉理解 + 创意设计
artistry(创意方案) Kimi-k2.5 非常规问题需要创意思维
writing(文档写作) Kimi-k2.5 长文输出,表达流畅

任务分配决策流程图
图3:任务类别到模型的分配决策流程

分配逻辑总结

  • GLM-5.1:逻辑推理、架构决策、深度实现 → “稳重派”
  • MiniMax-M2.7:高频搜索、快速任务、低复杂度 → “效率派”
  • Kimi-k2.5:前端视觉、创意写作、多模态 → “创意派”
  • Qwen3.5-plus:代码生成、Bug 修复、重构 → “实干派”
  • GPT-5.4:计划审查、高质量实现 → “天花板”

完整配置文件

以下是 oh-my-opencode.json 的完整配置:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
{
"agents": {
"sisyphus": { "model": "zhipuai-coding-plan/glm-5.1" },
"prometheus": { "model": "alibaba-coding-plan-cn/qwen3.5-plus" },
"atlas": { "model": "minimax-cn-coding-plan/MiniMax-M2.7" },
"explore": { "model": "minimax-cn-coding-plan/MiniMax-M2.7" },
"hephaestus": { "model": "openai/gpt-5.4", "variant": "high" },
"librarian": { "model": "minimax-cn-coding-plan/MiniMax-M2.7" },
"metis": { "model": "zhipuai-coding-plan/glm-5-turbo" },
"momus": { "model": "openai/gpt-5.4" },
"multimodal-looker": { "model": "alibaba-coding-plan-cn/kimi-k2.5" },
"oracle": { "model": "zhipuai-coding-plan/glm-5.1" }
},
"categories": {
"artistry": { "model": "alibaba-coding-plan-cn/kimi-k2.5" },
"deep": { "model": "zhipuai-coding-plan/glm-5.1" },
"quick": { "model": "minimax-cn-coding-plan/MiniMax-M2.7" },
"ultrabrain": { "model": "zhipuai-coding-plan/glm-5.1" },
"unspecified-high": { "model": "zhipuai-coding-plan/glm-5.1" },
"unspecified-low": { "model": "minimax-cn-coding-plan/MiniMax-M2.7" },
"visual-engineering": { "model": "alibaba-coding-plan-cn/kimi-k2.5" },
"writing": { "model": "alibaba-coding-plan-cn/kimi-k2.5" }
}
}

附加配置:插件与 MCP

除了模型分配,我还配置了一些插件来增强能力:

插件 作用
Superpowers 提供 TDD、调试、计划编写等工程化工作流
Claude HUD 终端状态栏,实时显示智能体活动
JDTLS-LSP Java 语言服务器,精准的代码智能
Skill Creator 自定义技能创建器
Minimax Skills MiniMax 图片生成、Web 搜索等
Ralph Loop 自动化循环执行

MCP 服务:配置了 MySQL MCP 服务器,让智能体可以直接查询数据库,在处理数据相关的开发任务时非常方便。

自定义 Agent:我还创建了一个 java-bug-pathfinder 自定义智能体,专门用于 Java Bug 的调用链追踪和根因分析,配置为只读权限,确保安全。

选型总结与建议

经过几个月的使用,我总结出以下选型原则:

  1. 编排类角色选稳不选猛:主编排者需要的是可靠性和全局视野,不需要偶尔的天才表现。GLM-5.1 的稳健特质完美匹配。

  2. 高频角色选快不选强:Explore、Librarian 这种可能并行启动 5 个实例的角色,响应速度和成本比”聪明程度”更重要。MiniMax-M2.7 是这个场景的最优解。

  3. 审查角色选强不选快:Momus 做 Plan Review,宁可多等几秒也要找出问题。GPT-5.4 的审查质量值得这点等待。

  4. 创意角色选长不选短:前端设计、文档写作需要长上下文和创意表达。Kimi-k2.5 的长文本和视觉理解能力让它在这个领域领先。

  5. 实现角色选专不选全:代码生成需要的是对框架和语言的深度理解。Qwen3.5-plus 在代码领域的专精让它在 Prometheus 角色上表现突出。

  6. 按预算分层:不是每个任务都需要最贵的模型。把高成本模型留给 Hephaestus 和 Momus 这种”关键时刻才上场”的角色,日常任务用性价比模型。

结语

AI 编程工具的配置不是”选一个最强模型就完事”。就像组建一个工程团队,你需要了解每个”成员”的特长,把合适的人放在合适的位置。希望这篇分享能帮助你更好地配置自己的 AI 编程智能体团队。

如果你也在用 Claude Code + OhMyOpenCode,欢迎交流你的配置方案。