AI应用开发进阶（十）：AI应用版本管理与A/B测试数据驱动优化

大家好，我是老金。

改了Prompt，效果变好还是变差？

换了模型，用户更喜欢吗？

数据说话。

今天聊聊版本管理和A/B测试。

# Prompt版本管理
class PromptRegistry:
    """Prompt注册表"""

    def __init__(self):
        self.versions = {}

    def register(self, name: str, version: str, prompt: str, metadata: dict):
        """注册Prompt版本"""
        if name not in self.versions:
            self.versions[name] = {}

        self.versions[name][version] = {
            "prompt": prompt,
            "metadata": metadata,
            "created_at": datetime.now()
        }

    def get(self, name: str, version: str = None) -&gt; str:
        """获取Prompt"""
        if version is None:
            # 获取最新版本
            version = max(self.versions[name].keys())

        return self.versions[name][version]["prompt"]

    def list_versions(self, name: str) -&gt; list:
        """列出所有版本"""
        return [
            {"version": v, **data}
            for v, data in self.versions[name].items()
        ]

# 使用
registry = PromptRegistry()

# 注册新版本
registry.register(
    name="summarize",
    version="v2.1",
    prompt="请用3句话总结：{text}",
    metadata={
        "author": "老金",
        "model": "gpt-4",
        "temperature": 0.7
    }
)

# 模型版本配置
MODEL_CONFIGS = {
    "v1.0": {
        "model": "gpt-3.5-turbo",
        "temperature": 0.7,
        "max_tokens": 1000,
        "prompt_version": "v1.0"
    },
    "v1.1": {
        "model": "gpt-3.5-turbo",
        "temperature": 0.5,  # 降低随机性
        "max_tokens": 1500,
        "prompt_version": "v1.1"
    },
    "v2.0": {
        "model": "gpt-4",
        "temperature": 0.7,
        "max_tokens": 2000,
        "prompt_version": "v2.0"
    }
}

class VersionedModel:
    """版本化模型"""

    def __init__(self, version: str):
        self.config = MODEL_CONFIGS[version]
        self.prompt = registry.get("summarize", self.config["prompt_version"])

    async def generate(self, text: str) -&gt; str:
        """生成"""
        response = await openai.ChatCompletion.acreate(
            model=self.config["model"],
            messages=[{"role": "user", "content": self.prompt.format(text=text)}],
            temperature=self.config["temperature"],
            max_tokens=self.config["max_tokens"]
        )
        return response.choices[0].message.content

import hashlib

class ABTest:
    """A/B测试"""

    def __init__(self, test_id: str, variants: list, weights: list = None):
        self.test_id = test_id
        self.variants = variants
        self.weights = weights or [1.0 / len(variants)] * len(variants)

    def assign(self, user_id: str) -&gt; str:
        """分配变体"""
        # 哈希分配（保证同一用户始终分配到同一变体）
        hash_val = hashlib.md5(
            f"{self.test_id}:{user_id}".encode()
        ).hexdigest()

        bucket = int(hash_val, 16) % 100

        cumulative = 0
        for i, weight in enumerate(self.weights):
            cumulative += weight * 100
            if bucket  dict:
        """获取统计"""
        stats = {}

        for variant, metrics in self.metrics.items():
            stats[variant] = {}
            for name, values in metrics.items():
                stats[variant][name] = {
                    "mean": np.mean(values),
                    "std": np.std(values),
                    "count": len(values)
                }

        return stats

    def significance_test(self, metric: str) -&gt; dict:
        """显著性检验"""
        from scipy import stats

        variants = list(self.metrics.keys())
        if len(variants) != 2:
            raise ValueError("只支持双变体检验")

        a_values = self.metrics[variants[0]][metric]
        b_values = self.metrics[variants[1]][metric]

        t_stat, p_value = stats.ttest_ind(a_values, b_values)

        return {
            "variant_a": variants[0],
            "variant_b": variants[1],
            "t_statistic": t_stat,
            "p_value": p_value,
            "significant": p_value &lt; 0.05
        }

版本控制：Prompt、模型、配置都要版本化
渐进发布：小流量→大流量
数据驱动：用A/B测试验证效果
快速回滚：发现问题立即回退

技术老金同步发布至微信公众号【技术老金】，欢迎关注

我们为何放弃了CrewAI：一个关于AI框架选型的深度复盘 - 技术老金 […] AI写不出“干净架构”：从代码生成到软件匠艺的进阶之路 […]

我们为何放弃了CrewAI：一个关于AI框架选型的深度复盘 - 技术老金 […] 和AI结对编程第一天，我踩了3个大坑，差点项目失败！复盘4条生存法则 […]

你的AI“实习生”为何总是带不动？我们犯了3个“管理”上的致命错误 - 技术老金 […] AI代码生成：是解放生产力的“银弹”，还是架构师的“新噩梦”？当AI能生成“正确”的代码，我们这些35岁+的老程序员，到底“贵”在哪？AI与代码品味：当机器开始“创作”，我们程序员的价值还剩多少？ […]

技术老金文章已同步发布到微信公众号【技术老金】，欢迎关注

技术老金文章已同步发布到微信公众号【技术老金】，欢迎关注。

技术老金同步发布至微信公众号【技术老金】，欢迎关注，有什么问题可以公众号私信

AI应用开发进阶（十）：AI应用版本管理与A/B测试数据驱动优化

AI应用开发进阶（十）：AI应用版本管理与A/B测试数据驱动优化

一、开场：怎么知道新版本更好

二、版本管理

2.1 Prompt版本控制

2.2 模型版本管理

三、A/B测试

3.1 流量分配

四、总结

最佳实践

相关阅读

归档

分类