Model Dossier

根据任务类型、预算和边界选择更合适的模型

这里整理的是不同模型在 默认模型、轻量模型、备用链、预算和 合规边界 上的常见取舍，方便你按自己的使用场景做判断。

资料时点

以下对公开模型与价格的整理，基于 2026 年 3 月 18 日可查到的官方资料。真正上线前，仍建议你在各供应商控制台再核一遍可用型号和计费口径。

推荐起点默认模型先跑稳

第二层轻量模型吃掉低风险任务

最后再加Fallback、缓存与预算治理

New User

第一次部署的人

先选一个默认模型，把第一条链路跑通，再决定要不要多模型。

默认优先 Claude Sonnet 4 或 Gemini 2.5 Flash 这类稳定且不至于太贵的主力模型。

先跑单模型先不做自动路由先验证工具调用稳定性

Team

已经在用的团队

重点不再是“哪个最强”，而是怎样把主力模型、轻量模型和备用链配合起来。

优先做主力 + 轻量 + fallback 三层结构，把成本和稳定性一起管起来。

主力模型轻量模型失败回退链

Enterprise

企业与合规场景

真正需要先看的不是模型榜单，而是数据边界、供应商稳定性、法务和预算机制。

优先筛掉不合规的候选，再在可接受范围里比较效果、上下文、延迟和价格。

数据边界供应商 SLA成本上限与审计

Decision Path

更稳的决策顺序

选模型时，先把默认模型跑稳，再逐步补轻量模型、Fallback 和预算控制，通常比一次做全更可靠。

先定义默认模型

默认模型决定了大多数任务的体验。只有默认模型稳定，后面的 fallback 和自动路由才值得加。

再补轻量模型

把格式化、摘要、简单分类、批量重写这类任务切给便宜模型，通常比一上来做复杂路由更划算。

最后再上 fallback 与治理

当你已经遇到限流、偶发失败、成本波动或多团队共享时，再把回退链、配额和缓存体系补齐。

稳定主力

Anthropic / Claude

大多数 OpenClaw 使用者可以先从 Claude Sonnet 4 起步。

如果你的第一目标是工具调用稳定、代码辅助和长会话中的一致性，Claude 仍然是很稳的默认起点。

Claude Sonnet 4

默认主力

Anthropic 官方模型总览在 2026 年 3 月仍把它放在主力位置，输入 $3 / 输出 $15 每百万 tokens，适合代码、工具调用和一般复杂任务。

Claude Haiku 3.5

轻量任务

输入 $0.8 / 输出 $4，每百万 tokens，适合简单分类、短摘要、格式化和低成本批处理。

Claude Opus 4.1

高复杂度兜底

适合极少数高复杂推理与高价值场景，但成本显著更高，不适合作为全天候默认模型。

判断提醒

Anthropic 官方总览同时标注了 Sonnet 3.5 已 deprecated，因此旧配置不建议继续作为新项目默认值。

多模态与通用能力

OpenAI / GPT

当前更值得关注的是 GPT-5.4 这一档，而不是继续沿用老的 4o 主力思路。

如果你的重点是视觉理解、通用 API 生态或和现有 OpenAI 工作流保持一致，GPT 系列更适合作为多模态主力。

GPT-5.4

多模态主力

OpenAI 在 2026 年 3 月最新发布说明中给出 API 价格为输入 $2.5 / 输出 $15，每百万 tokens，适合通用主力与复杂协作任务。

GPT-5.4 Pro

高复杂任务

更适合极高价值推理、难度高的代码与复杂分析，但价格已经进入必须强约束预算的级别。

Mini 级模型

低成本补位

如果你在 OpenAI 体系里做批量处理、轻量摘要或低风险自动化，应优先选择当前控制台中可用的 mini 级模型补位。

判断提醒

OpenAI 模型更新节奏快，生产环境建议尽量锁定明确型号或快照，不要长期依赖“自动跟随最新”。

长上下文与文档任务

Google / Gemini

Gemini 2.5 Pro 适合高质量长文档，Gemini 2.5 Flash / Flash Lite 更适合成本敏感的流量层。

如果你经常处理长文档、长上下文检索、批量资料整理和带 grounding 的检索类任务，Gemini 更值得重点看。

Gemini 2.5 Pro

长文档主力

Vertex AI 官方价格页显示 <=200K 输入时输入 $1.25 / 输出 $10，每百万 tokens，适合长上下文分析与高质量总结。

Gemini 2.5 Flash

轻量主力

输入 $0.30 / 输出 $2.50，每百万 tokens，适合高并发、批处理和需要保留一定质量的低成本主力。

Gemini 2.5 Flash Lite

低成本流量层

输入 $0.10 / 输出 $0.40，每百万 tokens，适合分类、路由预判和大规模轻任务。

判断提醒

Gemini 的长上下文、grounding 与 batch 优势很明显，但如果你的主要价值来自工具调用一致性，仍要先做小规模验证。

中文成本与边界控制

DeepSeek 与国产合规路线

把这一类看成“合规 / 成本 / 中文体验”的方案池，而不是无条件替代国际主力模型。

如果你的首要问题是中文成本、数据边界或国内供应商接入便利性，这一组模型通常更值得进入候选名单。

DeepSeek Chat / Reasoner

中文成本优先

DeepSeek 官方 API 文档长期强调其低成本与推理分层路线，适合中文写作、总结与成本敏感任务。

Qwen / 通义路线

国内企业接入

更适合要走国内云平台、审计流程和数据边界管理的团队，尤其是本来就运行在阿里云生态里的团队。

混元 / 豆包等厂商模型

平台协同

如果你的办公和消息入口本来就强依赖企业微信、飞书或其他国内平台，模型选择往往应跟平台能力一起判断。

判断提醒

这一路线不建议直接靠网上旧价目表拍板，应该以你实际接入的平台控制台报价、区域和合规要求为准。

Quick Matrix

典型场景怎么选

适合新手 / 小团队默认主力配置

Claude Sonnet 4 或 GPT-5.4

优先选你最容易稳定接入、调试和结算的一家，不要第一天就同时接三家。

适合资料型团队长文档与知识库问答

Gemini 2.5 Pro

当文档长度和上下文压缩能力开始成为关键变量时，Gemini 路线通常更值得单独评估。

适合内容流水线高并发轻量任务

Claude Haiku 3.5 / Gemini 2.5 Flash / Flash Lite

把便宜模型放在摘要、分类、改写和格式化这类任务上，节省往往比换一家主力模型更直接。

适合企业合规与数据边界优先

国产模型 + 本地模型池

先过数据与法务要求，再在合规范围内做效果和成本比较。

适合高风险流程复杂推理或高价值审批

主力模型 + 高级兜底模型

不要把高价模型放到所有流量上，而是把它保留给极少数必须高质量处理的节点。

适合多模态工作流视觉与截图理解

GPT-5.4

如果你的工作流经常要看界面、图片、截图和复杂视觉输入，OpenAI 路线会更自然。

Routing Patterns

按型号做一轮横向对比

如果你已经完成了上面的判断，还想进一步横向看各模型家族的价格、定位和典型用途，这一块可以作为对照附录。

Claude 系列

OpenClaw 默认主力里最稳的一组，工具调用和代码辅助表现通常更可预期。

Anthropic

Claude Sonnet 4.6推荐

工具调用稳定代码能力强主力默认值

成本：$3/$15主力模型

Claude 3.5 Haiku

速度快成本低

成本：$0.8/$4轻量任务

Claude Opus 4.6

推理最强复杂任务兜底

成本：$15/$75复杂推理

GPT 系列

多模态和视觉理解更突出，适合截图、界面和复杂图像输入工作流。

OpenAI

GPT-5.4推荐

多模态主力视觉理解通用能力强

成本：$2.5/$15图片分析 / 通用主力

GPT mini 级

低成本批量处理

成本：视控制台而定轻量批量任务

GPT-5.4 Pro

高复杂度高价值任务

成本：高价位复杂推理

DeepSeek 系列

中文成本表现突出，适合总结、写作和成本敏感型内容流水线。

DeepSeek

DeepSeek Chat推荐

中文性价比低成本

成本：$0.3/$0.5中文写作

DeepSeek Reasoner

推理增强复杂分析

成本：$0.55/$2.19逻辑推理

Gemini 系列

长上下文和资料处理更有优势，适合知识库和长文档工作流。

Google

Gemini 2.5 Pro推荐

长上下文文档理解

成本：$1.25/$10长文档

Gemini 2.5 Flash

高并发速度快

成本：$0.3/$2.5简单任务

Gemini 2.5 Flash Lite

超低成本大规模轻任务

成本：$0.1/$0.4分类 / 路由

国产模型

更适合要把数据边界、平台接入和合规要求一起考虑的团队。

阿里 / 腾讯 / 字节

Qwen2.5-72B推荐

国内合规云平台友好

成本：¥4/¥12合规场景

腾讯混元

企业生态平台协同

成本：¥4/¥12企微用户

豆包 Pro

飞书生态低成本

成本：¥0.8/¥2飞书用户

Cost Governance

真正能省钱的不是换一家模型，而是把系统行为管住

缩短 SOUL 与系统提示

20% - 40%

把人格设定和规则写得清楚，不等于写得越长越好。能结构化的内容尽量结构化。

压缩历史上下文

最常见的成本拐点

长会话最好配摘要、阶段归档或清理策略，不要让所有历史都一直原样保留。

用轻量模型吞掉批量任务

显著降低平均成本

摘要、分类、标题生成、格式清洗这类任务不该长期占用最贵的主力模型。

对重复内容启用缓存

Anthropic / Google 路线更明显

固定前缀、长说明、重复模板和大文档场景更值得用缓存或 batch 能力。

设预算与告警

避免灾难性超支

真正的企业策略不是“希望不要超”，而是设置硬阈值、分环境限额和供应商配额。

Quick Savings

上一版保留的成本优化抓手

这几项更像是落到日常操作层的“立刻能做的事”，和上面的治理策略可以一起看。

SOUL / 系统提示最小化

节省 20% - 40%

精简前置提示，把能结构化的规则写成清晰短句，避免长篇开场白。

开启 Prompt Caching

节省 40% - 60%

对重复前缀、固定模板和长文档处理尤其有效。

对话历史压缩

节省 80%

长会话应该做摘要、阶段归档或清理，不要无限原样累积。

批量处理

节省接近 99%

能合并的任务尽量合并，不要把一串小请求拆成重复调用。

设置成本上限

避免灾难性超支

成本控制不是愿望，要靠硬阈值、告警和预算分层。

Budget Plans

预算方案恢复版

这部分保留旧版的预算感知，帮助你快速把“预算”和“模型组合”连起来看。

个人副业

$50/月

主力Claude 3.5 Haiku

备用Gemini Flash

每日约 1000 次轻量调用

小团队服务

$200/月

主力Claude Sonnet 4.6（60%）

备用Haiku（35%）

支持 2-10 人团队

内容创作工作室

$100/月

主力DeepSeek Chat（70%）

备用GPT-5.4（20%）

月产数千条短内容

数据合规企业

¥1000/月

主力Qwen2.5-72B

备用本地 Ollama

数据不出境优先

高可用生产系统

$500+/月

主力多模型冗余

备用自动故障转移

面向稳定性与 SLA

Coding Plans

国内 Coding Plan 参考

保留这部分是为了方便你做国内模型试用和代码场景的成本摸底，它不替代实际控制台报价。

阿里云百炼Qwen2.5-Coder100 万 tokens / 月¥2 / M

DeepSeek 官方DeepSeek-V3 / R1注册送体验金¥1 / M

字节火山引擎Doubao-pro50 万 tokens / 月¥0.8 / M

智谱 AIGLM-4-Flash长期免费额度¥0.1 / M

Official Sources

建议直接核对的一手资料

如果你要做采购、上线或长期策略判断，最好直接回到这些官方页面核对可用型号、计费方式和最新能力。

OpenAI

OpenAI: GPT-5.4 发布说明

确认 GPT-5.4 与 GPT-5.4 Pro 的最新能力和 API 价格。

打开原文

Anthropic

Anthropic: Claude Models Overview

确认 Claude 4 / 3.5 系列的当前价格、上下文和 deprecated 状态。

打开原文

Google Cloud

Google: Vertex AI Gemini Pricing

确认 Gemini 2.5 Pro / Flash / Flash Lite 的当前计费与长上下文价格。

打开原文

DeepSeek

DeepSeek: Pricing

核对 DeepSeek 官方 API 价格与模型分层，不建议长期引用旧截图或二手价目表。

打开原文

Cross Access

把模型问题放回完整结构里

真正落地时，模型从来不是孤立决策。你还需要回到文档、配置和运维链路里继续核对。

根据任务类型、预算和边界选择更合适的模型

第一次部署的人

已经在用的团队

企业与合规场景

更稳的决策顺序

先定义默认模型

再补轻量模型

最后再上 fallback 与治理

Anthropic / Claude

Claude Sonnet 4

Claude Haiku 3.5

Claude Opus 4.1

OpenAI / GPT

GPT-5.4

GPT-5.4 Pro

Mini 级模型

Google / Gemini

Gemini 2.5 Pro

Gemini 2.5 Flash

Gemini 2.5 Flash Lite

DeepSeek 与国产合规路线

DeepSeek Chat / Reasoner

Qwen / 通义路线

混元 / 豆包等厂商模型

推荐从这三种配置阶段进入

单模型起步

主力 + 轻量分层

主力 + Fallback 链

按型号做一轮横向对比

Claude 系列

GPT 系列

DeepSeek 系列

Gemini 系列

国产模型

真正能省钱的不是换一家模型，而是把系统行为管住

缩短 SOUL 与系统提示

压缩历史上下文

用轻量模型吞掉批量任务

对重复内容启用缓存

设预算与告警

上一版保留的成本优化抓手

SOUL / 系统提示最小化

开启 Prompt Caching

对话历史压缩

批量处理

设置成本上限

预算方案恢复版

个人副业

小团队服务

内容创作工作室

数据合规企业

高可用生产系统

国内 Coding Plan 参考

建议直接核对的一手资料

OpenAI: GPT-5.4 发布说明

Anthropic: Claude Models Overview

Google: Vertex AI Gemini Pricing

DeepSeek: Pricing

把模型问题放回完整结构里