Model Dossier
根据任务类型、预算和边界选择更合适的模型
这里整理的是不同模型在 默认模型、轻量模型、备用链、 预算 和 合规边界 上的常见取舍,方便你按自己的使用场景做判断。
以下对公开模型与价格的整理,基于 2026 年 3 月 18 日可查到的官方资料。真正上线前,仍建议你在各供应商控制台再核一遍可用型号和计费口径。
第一次部署的人
先选一个默认模型,把第一条链路跑通,再决定要不要多模型。
默认优先 Claude Sonnet 4 或 Gemini 2.5 Flash 这类稳定且不至于太贵的主力模型。已经在用的团队
重点不再是“哪个最强”,而是怎样把主力模型、轻量模型和备用链配合起来。
优先做主力 + 轻量 + fallback 三层结构,把成本和稳定性一起管起来。企业与合规场景
真正需要先看的不是模型榜单,而是数据边界、供应商稳定性、法务和预算机制。
优先筛掉不合规的候选,再在可接受范围里比较效果、上下文、延迟和价格。Decision Path
更稳的决策顺序
选模型时,先把默认模型跑稳,再逐步补轻量模型、Fallback 和预算控制,通常比一次做全更可靠。
先定义默认模型
默认模型决定了大多数任务的体验。只有默认模型稳定,后面的 fallback 和自动路由才值得加。
再补轻量模型
把格式化、摘要、简单分类、批量重写这类任务切给便宜模型,通常比一上来做复杂路由更划算。
最后再上 fallback 与治理
当你已经遇到限流、偶发失败、成本波动或多团队共享时,再把回退链、配额和缓存体系补齐。
稳定主力
Anthropic / Claude
大多数 OpenClaw 使用者可以先从 Claude Sonnet 4 起步。
如果你的第一目标是工具调用稳定、代码辅助和长会话中的一致性,Claude 仍然是很稳的默认起点。
Claude Sonnet 4
默认主力Anthropic 官方模型总览在 2026 年 3 月仍把它放在主力位置,输入 $3 / 输出 $15 每百万 tokens,适合代码、工具调用和一般复杂任务。
Claude Haiku 3.5
轻量任务输入 $0.8 / 输出 $4,每百万 tokens,适合简单分类、短摘要、格式化和低成本批处理。
Claude Opus 4.1
高复杂度兜底适合极少数高复杂推理与高价值场景,但成本显著更高,不适合作为全天候默认模型。
Anthropic 官方总览同时标注了 Sonnet 3.5 已 deprecated,因此旧配置不建议继续作为新项目默认值。
多模态与通用能力
OpenAI / GPT
当前更值得关注的是 GPT-5.4 这一档,而不是继续沿用老的 4o 主力思路。
如果你的重点是视觉理解、通用 API 生态或和现有 OpenAI 工作流保持一致,GPT 系列更适合作为多模态主力。
GPT-5.4
多模态主力OpenAI 在 2026 年 3 月最新发布说明中给出 API 价格为输入 $2.5 / 输出 $15,每百万 tokens,适合通用主力与复杂协作任务。
GPT-5.4 Pro
高复杂任务更适合极高价值推理、难度高的代码与复杂分析,但价格已经进入必须强约束预算的级别。
Mini 级模型
低成本补位如果你在 OpenAI 体系里做批量处理、轻量摘要或低风险自动化,应优先选择当前控制台中可用的 mini 级模型补位。
OpenAI 模型更新节奏快,生产环境建议尽量锁定明确型号或快照,不要长期依赖“自动跟随最新”。
长上下文与文档任务
Google / Gemini
Gemini 2.5 Pro 适合高质量长文档,Gemini 2.5 Flash / Flash Lite 更适合成本敏感的流量层。
如果你经常处理长文档、长上下文检索、批量资料整理和带 grounding 的检索类任务,Gemini 更值得重点看。
Gemini 2.5 Pro
长文档主力Vertex AI 官方价格页显示 <=200K 输入时输入 $1.25 / 输出 $10,每百万 tokens,适合长上下文分析与高质量总结。
Gemini 2.5 Flash
轻量主力输入 $0.30 / 输出 $2.50,每百万 tokens,适合高并发、批处理和需要保留一定质量的低成本主力。
Gemini 2.5 Flash Lite
低成本流量层输入 $0.10 / 输出 $0.40,每百万 tokens,适合分类、路由预判和大规模轻任务。
Gemini 的长上下文、grounding 与 batch 优势很明显,但如果你的主要价值来自工具调用一致性,仍要先做小规模验证。
中文成本与边界控制
DeepSeek 与国产合规路线
把这一类看成“合规 / 成本 / 中文体验”的方案池,而不是无条件替代国际主力模型。
如果你的首要问题是中文成本、数据边界或国内供应商接入便利性,这一组模型通常更值得进入候选名单。
DeepSeek Chat / Reasoner
中文成本优先DeepSeek 官方 API 文档长期强调其低成本与推理分层路线,适合中文写作、总结与成本敏感任务。
Qwen / 通义路线
国内企业接入更适合要走国内云平台、审计流程和数据边界管理的团队,尤其是本来就运行在阿里云生态里的团队。
混元 / 豆包等厂商模型
平台协同如果你的办公和消息入口本来就强依赖企业微信、飞书或其他国内平台,模型选择往往应跟平台能力一起判断。
这一路线不建议直接靠网上旧价目表拍板,应该以你实际接入的平台控制台报价、区域和合规要求为准。
Routing Patterns
推荐从这三种配置阶段进入
不要把单模型、轻量分流和 fallback 混在第一天一起做。分阶段推进更容易排错。
单模型起步
适合第一次部署或还没稳定跑通的团队。先把默认模型、最大 tokens 和错误处理跑顺。
{
"llm": {
"provider": "anthropic",
"model": "claude-sonnet-4"
}
}主力 + 轻量分层
把批量摘要、格式化、短改写交给轻量模型,把真实复杂任务留给主力模型。
{
"llm": {
"default": { "provider": "anthropic", "model": "claude-sonnet-4" },
"cheap": { "provider": "google", "model": "gemini-2.5-flash" }
},
"routing": {
"simplePatterns": ["摘要", "格式化", "提炼要点"],
"simpleModel": "cheap",
"defaultModel": "default"
}
}主力 + Fallback 链
适合已经有真实流量、不能接受单一供应商偶发失败的团队。
{
"llm": {
"fallbackChain": [
{ "provider": "anthropic", "model": "claude-sonnet-4", "priority": 1 },
{ "provider": "openai", "model": "gpt-5.4", "priority": 2 },
{ "provider": "google", "model": "gemini-2.5-flash", "priority": 3 }
]
}
}许多团队一开始的问题不是“模型选错了”,而是配置、权限、网络、SOUL 和上下文策略都还没稳定。
系统提示过长、对话历史无限累积、重复重试和无缓存,通常比模型单价更容易把预算吃光。
审批、复杂分析、代码审查和重要对外生成可以用高等级模型,但不要让它处理所有低风险流水任务。
Comparison Appendix
按型号做一轮横向对比
如果你已经完成了上面的判断,还想进一步横向看各模型家族的价格、定位和典型用途,这一块可以作为对照附录。
Claude 系列
OpenClaw 默认主力里最稳的一组,工具调用和代码辅助表现通常更可预期。
GPT 系列
多模态和视觉理解更突出,适合截图、界面和复杂图像输入工作流。
DeepSeek 系列
中文成本表现突出,适合总结、写作和成本敏感型内容流水线。
Gemini 系列
长上下文和资料处理更有优势,适合知识库和长文档工作流。
国产模型
更适合要把数据边界、平台接入和合规要求一起考虑的团队。
Cost Governance
真正能省钱的不是换一家模型,而是把系统行为管住
缩短 SOUL 与系统提示
20% - 40%把人格设定和规则写得清楚,不等于写得越长越好。能结构化的内容尽量结构化。
压缩历史上下文
最常见的成本拐点长会话最好配摘要、阶段归档或清理策略,不要让所有历史都一直原样保留。
用轻量模型吞掉批量任务
显著降低平均成本摘要、分类、标题生成、格式清洗这类任务不该长期占用最贵的主力模型。
对重复内容启用缓存
Anthropic / Google 路线更明显固定前缀、长说明、重复模板和大文档场景更值得用缓存或 batch 能力。
设预算与告警
避免灾难性超支真正的企业策略不是“希望不要超”,而是设置硬阈值、分环境限额和供应商配额。
Quick Savings
上一版保留的成本优化抓手
这几项更像是落到日常操作层的“立刻能做的事”,和上面的治理策略可以一起看。
SOUL / 系统提示最小化
节省 20% - 40%精简前置提示,把能结构化的规则写成清晰短句,避免长篇开场白。
开启 Prompt Caching
节省 40% - 60%对重复前缀、固定模板和长文档处理尤其有效。
对话历史压缩
节省 80%长会话应该做摘要、阶段归档或清理,不要无限原样累积。
批量处理
节省接近 99%能合并的任务尽量合并,不要把一串小请求拆成重复调用。
设置成本上限
避免灾难性超支成本控制不是愿望,要靠硬阈值、告警和预算分层。
Budget Plans
预算方案恢复版
这部分保留旧版的预算感知,帮助你快速把“预算”和“模型组合”连起来看。
个人副业
$50/月每日约 1000 次轻量调用
小团队服务
$200/月支持 2-10 人团队
内容创作工作室
$100/月月产数千条短内容
数据合规企业
¥1000/月数据不出境优先
高可用生产系统
$500+/月面向稳定性与 SLA
Coding Plans
国内 Coding Plan 参考
保留这部分是为了方便你做国内模型试用和代码场景的成本摸底,它不替代实际控制台报价。
Official Sources
建议直接核对的一手资料
如果你要做采购、上线或长期策略判断,最好直接回到这些官方页面核对可用型号、计费方式和最新能力。
Cross Access
把模型问题放回完整结构里
真正落地时,模型从来不是孤立决策。你还需要回到文档、配置和运维链路里继续核对。