AI应用开发进阶（八）：AI应用监控与可观测性让系统透明可控

大家好，我是老金。

AI应用上线后，最可怕的是什么？

不知道哪里出了问题。

今天聊聊监控与可观测性。

┌─────────────────────────────────────────┐
│           可观测性三大支柱              │
├─────────────────────────────────────────┤
│                                         │
│  Metrics（指标）                        │
│  ├── 延迟、吞吐量、错误率               │
│  ├── Token消耗、成本                    │
│  └── 自定义业务指标                     │
│                                         │
│  Logs（日志）                           │
│  ├── 结构化日志                         │
│  ├── 分布式追踪                         │
│  └── 错误日志                           │
│                                         │
│  Traces（链路）                         │
│  ├── 请求全链路                         │
│  ├── 服务依赖                           │
│  └── 性能瓶颈                           │
│                                         │
└─────────────────────────────────────────┘

# Prometheus指标定义
from prometheus_client import Counter, Histogram, Gauge

# 请求指标
REQUEST_COUNT = Counter(
    'ai_requests_total',
    'Total requests',
    ['method', 'endpoint', 'status']
)

REQUEST_LATENCY = Histogram(
    'ai_request_latency_seconds',
    'Request latency',
    ['endpoint']
)

# LLM指标
LLM_TOKENS = Counter(
    'ai_llm_tokens_total',
    'LLM tokens used',
    ['model', 'type']
)

LLM_LATENCY = Histogram(
    'ai_llm_latency_seconds',
    'LLM call latency',
    ['model']
)

# 业务指标
ACTIVE_SESSIONS = Gauge(
    'ai_active_sessions',
    'Active sessions'
)

QUEUE_SIZE = Gauge(
    'ai_queue_size',
    'Request queue size'
)

import structlog
import json

# 配置结构化日志
structlog.configure(
    processors=[
        structlog.stdlib.filter_by_level,
        structlog.stdlib.add_logger_name,
        structlog.stdlib.add_log_level,
        structlog.stdlib.PositionalArgumentsFormatter(),
        structlog.processors.TimeStamper(fmt="iso"),
        structlog.processors.StackInfoRenderer(),
        structlog.processors.format_exc_info,
        structlog.processors.JSONRenderer()
    ],
    context_class=dict,
    logger_factory=structlog.stdlib.LoggerFactory(),
)

logger = structlog.get_logger()

# 使用
logger.info(
    "request_processed",
    user_id="user_123",
    latency_ms=150,
    tokens_input=100,
    tokens_output=200,
    model="gpt-4"
)

# 输出：
# {"event": "request_processed", "user_id": "user_123", "latency_ms": 150, ...}

# OpenTelemetry追踪
from opentelemetry import trace
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor
from opentelemetry.exporter.jaeger.thrift import JaegerExporter

# 配置
trace.set_tracer_provider(TracerProvider())
tracer = trace.get_tracer(__name__)

jaeger_exporter = JaegerExporter(
    agent_host_name="localhost",
    agent_port=6831
)

trace.get_tracer_provider().add_span_processor(
    BatchSpanProcessor(jaeger_exporter)
)

# 使用
async def process_request(request_id: str):
    with tracer.start_as_current_span("process_request") as span:
        span.set_attribute("request_id", request_id)

        # 子操作
        with tracer.start_as_current_span("llm_call"):
            result = await call_llm()
            span.set_attribute("tokens_used", result.tokens)

        with tracer.start_as_current_span("save_result"):
            await save_to_db(result)

# alerting_rules.yml
groups:
  - name: ai_alerts
    rules:
      - alert: HighErrorRate
        expr: rate(ai_requests_total{status="error"}[5m]) &gt; 0.05
        for: 5m
        labels:
          severity: critical
        annotations:
          summary: "Error rate &gt; 5%"

      - alert: HighLatency
        expr: histogram_quantile(0.95, rate(ai_request_latency_seconds_bucket[5m])) &gt; 5
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "P95 latency &gt; 5s"

      - alert: HighCost
        expr: increase(ai_llm_tokens_total[1h]) &gt; 1000000
        for: 10m
        labels:
          severity: warning
        annotations:
          summary: "Token usage &gt; 1M/hour"

[ ] 基础指标（延迟、错误、吞吐量）
[ ] 业务指标（Token、成本、会话）
[ ] 结构化日志
[ ] 分布式追踪
[ ] 告警配置
[ ] Dashboard

技术老金同步发布至微信公众号【技术老金】，欢迎关注

我们为何放弃了CrewAI：一个关于AI框架选型的深度复盘 - 技术老金 […] AI写不出“干净架构”：从代码生成到软件匠艺的进阶之路 […]

我们为何放弃了CrewAI：一个关于AI框架选型的深度复盘 - 技术老金 […] 和AI结对编程第一天，我踩了3个大坑，差点项目失败！复盘4条生存法则 […]

你的AI“实习生”为何总是带不动？我们犯了3个“管理”上的致命错误 - 技术老金 […] AI代码生成：是解放生产力的“银弹”，还是架构师的“新噩梦”？当AI能生成“正确”的代码，我们这些35岁+的老程序员，到底“贵”在哪？AI与代码品味：当机器开始“创作”，我们程序员的价值还剩多少？ […]

技术老金文章已同步发布到微信公众号【技术老金】，欢迎关注

技术老金文章已同步发布到微信公众号【技术老金】，欢迎关注。

技术老金同步发布至微信公众号【技术老金】，欢迎关注，有什么问题可以公众号私信

AI应用开发进阶（八）：AI应用监控与可观测性让系统透明可控

AI应用开发进阶（八）：AI应用监控与可观测性让系统透明可控

一、开场：看不见的问题最可怕

二、监控体系

2.1 三大支柱

2.2 核心指标

三、日志管理

3.1 结构化日志

3.2 分布式追踪

四、告警系统

4.1 告警规则

五、总结

监控 checklist

相关阅读

归档

分类