
嗨,大家好,我是技术老金。
自从AI浪潮席卷而来,我们开发者圈子里最火的词,可能就是“提示词工程”(Prompt Engineering)了。似乎掌握了写Prompt的各种秘诀,就能驾驭AI,解决一切问题。
这当然没错,对于一线开发者和产品经理来说,写好Prompt是把AI用起来的关键一步。但对于架构师而言,如果你的视野还仅仅停留在“如何写好提示词”上,那你的价值,可能正在被快速稀释。
为什么这么说?因为提示词工程解决的是“怎么用”的问题,这是战术层面。而架构师的核心职责,是回答“用哪个”、“为什么用它”以及“用不起怎么办”的问题,这是战略层面。把所有问题都一股脑地抛给最强大的GPT-4,就像你为了每天通勤三公里,专门买了一辆一级方程式赛车。它当然能到,但成本、风险和维护性,你真的评估过吗?
今天,老金想和你聊一个更深,也更重要的话题:模型选型。这不仅仅是一个技术选择,更是一项严肃的架构决策。我将为你提供一个体系化的“大模型评估框架”,帮助你在乱花渐欲迷人眼的模型世界里,保持清醒,做出明智的权衡。
一、模型选型:不是功能选择,而是架构决策
很多团队在引入大模型时,会像挑选一个前端框架一样,看看哪个名气大、功能多,就直接用了。这是一个极其危险的误区。模型选型,牵一发而动全身,它深刻地影响着你系统的成本、性能和风险。
第一座大山:成本 (Cost)
这是最直观,也最容易被忽视的问题。不同模型之间的API调用价格,可能是天壤之别。
我举个真实的例子。一个团队做了一个智能客服机器人,初期为了追求最好的效果,所有用户问题都直接调用最顶级的模型。Demo演示时效果惊艳,老板非常满意。但上线一个月后,API账单来了,团队负责人脸都绿了。他们这才意识到,90%的用户问题,其实都是一些重复的、简单的FAQ,用一个成本低廉的小模型,甚至传统的规则引擎,完全可以解决。
一个理性的架构师,在设计之初就应该考虑“模型级联”(Model Cascading)的架构模式:用一个廉价的“守门员”模型处理海量的简单请求,只有当它无法解决时,才将问题升级给昂贵的“专家”模型。这一个小小的架构设计,可能就决定了你的产品在商业上能否存活。
第二座大山:性能 (Performance)
这里的性能,远不只是“聪明度”这么简单。它至少包含三个维度:
- 响应延迟: 对话式应用尤其敏感。一个吞吞吐吐的AI助手,足以逼疯任何用户。不同模型的推理速度差异巨大。
- 上下文窗口: 你的应用需要处理多长的信息?是几百字的短对话,还是需要阅读整篇万字长文?模型的上下文窗口大小,直接决定了它的应用场景。
- 多模态能力: 你的业务需要处理图片、声音甚至视频吗?这是一个基础的功能筛选。
这些性能指标,都将直接约束你的产品设计和用户体验。
第三座大山:风险 (Risk)
这是最隐蔽,但也最致命的。
- 数据隐私: 你真的放心把公司的核心代码、财务数据、用户隐私,全部发送给一个第三方的API吗?一旦发生数据泄露,后果不堪设想。
- 供应商锁定: 如果你整个系统的核心逻辑,都深度绑定了某一家厂商的闭源模型。万一对方大幅涨价、服务降级甚至停止服务,你有没有B计划?
- 部署模式: 这是最根本的架构决策。是选择简单便捷的公有云API,还是选择安全可控、但运维复杂的私有化部署开源模型?这决定了你的数据归属、网络拓扑和运维模式。
看,成本、性能、风险,这三座大山,哪一个不是架构师在做技术选型时,必须反复掂量的核心要素?
二、实战框架:架构师的“模型评估工具箱”
既然模型选型如此重要,我们该如何系统性地进行评估?老金在这里分享我的“三步走”评估框架。
第一步:定义评估维度(我们到底要比什么?)
抛开那些天花乱坠的营销术语,回归本质。我们需要从三个层面来定义我们的度量衡。
- 通用能力: 逻辑推理、代码生成、指令遵循、知识广度等。我们可以参考MMLU、HumanEval这些公开的学术榜单,但绝对不能迷信榜单。榜单是“标准普通话考试”,而你的业务说的是“方言”。
- 领域能力: 这才是评估的核心。模型在你的特定业务场景下的表现如何?比如,它能看懂你们公司财报的特定术语吗?它能理解你们代码库里的祖传屎山吗?
- 工程属性: 延迟、吞吐量、并发支持能力。这些决定了它在真实生产环境下的可用性。
第二步:设计评估方法(我们该怎么比?)
有了度量衡,我们就可以开始“是骡子是马,拉出来遛遛”了。
- 定性试用: 这是最快的初步筛选方法。花半天时间,找几个核心成员,通过对话的方式,直观地感受候选模型的“性格”、“智商”和“情商”。这个阶段,主观感受很重要。
- “金丝雀”数据集测试(本节重点): 这是整个评估环节最关键、最科学的一步。你需要和业务专家一起,精心构造一个包含50-100个公司真实业务场景的“黄金测试集”。这个测试集应该覆盖各种典型和边缘的Case。然后,让所有候选模型,都来回答这份“考卷”。谁的分数高,谁的分数低,一目了然。这个过程虽然耗时,但它是最能反映模型真实能力、最有说服力的方法。
- 压力测试: 对于通过了前两轮的“优等生”,我们需要进行最后一轮“体能测试”。使用压测工具,模拟高并发场景,观察模型的真实响应时间、吞吐量极限和稳定性。
第三步:建立决策矩阵(如何做出最终选择?)
将所有候选模型,在上述所有维度的表现,填入一个清晰的表格中。然后,根据业务的优先级(比如,当前阶段,我们更看重成本还是更看重领域能力?),对不同维度赋予不同的权重,最终计算出每个模型的综合得分。
这个决策矩阵,将成为你向老板、向团队阐述“为什么选它,而不是选它”的最有力依据。
老金总结
在AI时代,技术的浪潮把所有人都推到了一个新的起跑线上。如果我们架构师,还仅仅满足于讨论如何写好一个Prompt,那我们和初级开发者的区别,又在哪里呢?
我们的价值,在于能够跳出执行,回归决策。
懂得如何为合适的场景,挑选出性价比最高的模型;懂得如何在令人眼花缭乱的技术选项中,识别出那些隐藏的成本和风险;懂得如何用系统性的框架,去论证和支撑我们的每一个架构决策。
这种“模型认知与评估”的能力,这种超越了“提示词工程”的全局视野,正是未来架构师不可替代的新核心竞争力。
希望今天的分享,能为你提供一个更清晰的思考框架。
下一讲预告:模型选好了,团队成员用AI生成的代码五花八门,质量如何保证?我们来聊聊架构师的新挑战:从Code Review到“AI交互审查”。