超越提示词工程：架构师必须掌握的“模型认知与评估”能力

嗨，大家好，我是技术老金。

自从AI浪潮席卷而来，我们开发者圈子里最火的词，可能就是“提示词工程”（Prompt Engineering）了。似乎掌握了写Prompt的各种秘诀，就能驾驭AI，解决一切问题。

这当然没错，对于一线开发者和产品经理来说，写好Prompt是把AI用起来的关键一步。但对于架构师而言，如果你的视野还仅仅停留在“如何写好提示词”上，那你的价值，可能正在被快速稀释。

为什么这么说？因为提示词工程解决的是“怎么用”的问题，这是战术层面。而架构师的核心职责，是回答“用哪个”、“为什么用它”以及“用不起怎么办”的问题，这是战略层面。把所有问题都一股脑地抛给最强大的GPT-4，就像你为了每天通勤三公里，专门买了一辆一级方程式赛车。它当然能到，但成本、风险和维护性，你真的评估过吗？

今天，老金想和你聊一个更深，也更重要的话题：模型选型。这不仅仅是一个技术选择，更是一项严肃的架构决策。我将为你提供一个体系化的“大模型评估框架”，帮助你在乱花渐欲迷人眼的模型世界里，保持清醒，做出明智的权衡。

一、模型选型：不是功能选择，而是架构决策

很多团队在引入大模型时，会像挑选一个前端框架一样，看看哪个名气大、功能多，就直接用了。这是一个极其危险的误区。模型选型，牵一发而动全身，它深刻地影响着你系统的成本、性能和风险。

第一座大山：成本 (Cost)

这是最直观，也最容易被忽视的问题。不同模型之间的API调用价格，可能是天壤之别。

我举个真实的例子。一个团队做了一个智能客服机器人，初期为了追求最好的效果，所有用户问题都直接调用最顶级的模型。Demo演示时效果惊艳，老板非常满意。但上线一个月后，API账单来了，团队负责人脸都绿了。他们这才意识到，90%的用户问题，其实都是一些重复的、简单的FAQ，用一个成本低廉的小模型，甚至传统的规则引擎，完全可以解决。

一个理性的架构师，在设计之初就应该考虑“模型级联”（Model Cascading）的架构模式：用一个廉价的“守门员”模型处理海量的简单请求，只有当它无法解决时，才将问题升级给昂贵的“专家”模型。这一个小小的架构设计，可能就决定了你的产品在商业上能否存活。

第二座大山：性能 (Performance)

这里的性能，远不只是“聪明度”这么简单。它至少包含三个维度：

响应延迟： 对话式应用尤其敏感。一个吞吞吐吐的AI助手，足以逼疯任何用户。不同模型的推理速度差异巨大。
上下文窗口： 你的应用需要处理多长的信息？是几百字的短对话，还是需要阅读整篇万字长文？模型的上下文窗口大小，直接决定了它的应用场景。
多模态能力： 你的业务需要处理图片、声音甚至视频吗？这是一个基础的功能筛选。

这些性能指标，都将直接约束你的产品设计和用户体验。

第三座大山：风险 (Risk)

这是最隐蔽，但也最致命的。

数据隐私： 你真的放心把公司的核心代码、财务数据、用户隐私，全部发送给一个第三方的API吗？一旦发生数据泄露，后果不堪设想。
供应商锁定： 如果你整个系统的核心逻辑，都深度绑定了某一家厂商的闭源模型。万一对方大幅涨价、服务降级甚至停止服务，你有没有B计划？
部署模式： 这是最根本的架构决策。是选择简单便捷的公有云API，还是选择安全可控、但运维复杂的私有化部署开源模型？这决定了你的数据归属、网络拓扑和运维模式。

看，成本、性能、风险，这三座大山，哪一个不是架构师在做技术选型时，必须反复掂量的核心要素？

二、实战框架：架构师的“模型评估工具箱”

既然模型选型如此重要，我们该如何系统性地进行评估？老金在这里分享我的“三步走”评估框架。

第一步：定义评估维度（我们到底要比什么？）

抛开那些天花乱坠的营销术语，回归本质。我们需要从三个层面来定义我们的度量衡。

通用能力： 逻辑推理、代码生成、指令遵循、知识广度等。我们可以参考MMLU、HumanEval这些公开的学术榜单，但绝对不能迷信榜单。榜单是“标准普通话考试”，而你的业务说的是“方言”。
领域能力： 这才是评估的核心。模型在你的特定业务场景下的表现如何？比如，它能看懂你们公司财报的特定术语吗？它能理解你们代码库里的祖传屎山吗？
工程属性： 延迟、吞吐量、并发支持能力。这些决定了它在真实生产环境下的可用性。

第二步：设计评估方法（我们该怎么比？）

有了度量衡，我们就可以开始“是骡子是马，拉出来遛遛”了。

定性试用： 这是最快的初步筛选方法。花半天时间，找几个核心成员，通过对话的方式，直观地感受候选模型的“性格”、“智商”和“情商”。这个阶段，主观感受很重要。
“金丝雀”数据集测试（本节重点）： 这是整个评估环节最关键、最科学的一步。你需要和业务专家一起，精心构造一个包含50-100个公司真实业务场景的“黄金测试集”。这个测试集应该覆盖各种典型和边缘的Case。然后，让所有候选模型，都来回答这份“考卷”。谁的分数高，谁的分数低，一目了然。这个过程虽然耗时，但它是最能反映模型真实能力、最有说服力的方法。
压力测试： 对于通过了前两轮的“优等生”，我们需要进行最后一轮“体能测试”。使用压测工具，模拟高并发场景，观察模型的真实响应时间、吞吐量极限和稳定性。

第三步：建立决策矩阵（如何做出最终选择？）

将所有候选模型，在上述所有维度的表现，填入一个清晰的表格中。然后，根据业务的优先级（比如，当前阶段，我们更看重成本还是更看重领域能力？），对不同维度赋予不同的权重，最终计算出每个模型的综合得分。

这个决策矩阵，将成为你向老板、向团队阐述“为什么选它，而不是选它”的最有力依据。

老金总结

在AI时代，技术的浪潮把所有人都推到了一个新的起跑线上。如果我们架构师，还仅仅满足于讨论如何写好一个Prompt，那我们和初级开发者的区别，又在哪里呢？

我们的价值，在于能够跳出执行，回归决策。

懂得如何为合适的场景，挑选出性价比最高的模型；懂得如何在令人眼花缭乱的技术选项中，识别出那些隐藏的成本和风险；懂得如何用系统性的框架，去论证和支撑我们的每一个架构决策。

这种“模型认知与评估”的能力，这种超越了“提示词工程”的全局视野，正是未来架构师不可替代的新核心竞争力。

希望今天的分享，能为你提供一个更清晰的思考框架。

下一讲预告：模型选好了，团队成员用AI生成的代码五花八门，质量如何保证？我们来聊聊架构师的新挑战：从Code Review到“AI交互审查”。

技术老金同步发布至微信公众号【技术老金】，欢迎关注

我们为何放弃了CrewAI：一个关于AI框架选型的深度复盘 - 技术老金 […] AI写不出“干净架构”：从代码生成到软件匠艺的进阶之路 […]

我们为何放弃了CrewAI：一个关于AI框架选型的深度复盘 - 技术老金 […] 和AI结对编程第一天，我踩了3个大坑，差点项目失败！复盘4条生存法则 […]

你的AI“实习生”为何总是带不动？我们犯了3个“管理”上的致命错误 - 技术老金 […] AI代码生成：是解放生产力的“银弹”，还是架构师的“新噩梦”？当AI能生成“正确”的代码，我们这些35岁+的老程序员，到底“贵”在哪？AI与代码品味：当机器开始“创作”，我们程序员的价值还剩多少？ […]

技术老金文章已同步发布到微信公众号【技术老金】，欢迎关注

技术老金文章已同步发布到微信公众号【技术老金】，欢迎关注。

技术老金同步发布至微信公众号【技术老金】，欢迎关注，有什么问题可以公众号私信

超越提示词工程：架构师必须掌握的“模型认知与评估”能力

一、模型选型：不是功能选择，而是架构决策

二、实战框架：架构师的“模型评估工具箱”

老金总结

归档

分类