grafana-panels

Grafana Dashboard — AI Application Metrics 面板说明

文件:grafana/dashboards/spring-boot.json
新增 Row:AI Application Metrics(Panel ID 200–206)


面板列表

Panel 201 — Tool Execution Duration P95 (ms)

类型:TimeSeries
用途:监控每个工具的 P95 执行耗时,识别慢工具

histogram_quantile(0.95,
  sum(rate(ai_tool_duration_seconds_bucket[5m])) by (le, tool)
) * 1000

告警建议:P95 > 3000ms 时触发告警


Panel 202 — Tool Call Rate by Tool & Status

类型:TimeSeries
用途:展示各工具的调用频率,区分成功/失败

sum(rate(ai_tool_calls_total[5m])) by (tool, status)

关注点status=error 曲线上升代表工具稳定性下降


Panel 203 — Token Consumption Rate (tokens/s)

类型:TimeSeries
用途:实时监控 LLM Token 消耗速率,用于成本控制

# 输入
rate(ai_token_input_total[1m])

# 输出
rate(ai_token_output_total[1m])

扩展:可配合 OpenAI 单价计算每秒成本(如 input $0.002/1K tokens)


Panel 204 — TaskPlanner Success Rate

类型:Stat(颜色阈值)
用途:显示 TaskPlanner 规划成功率

sum(rate(ai_planner_result_total{status="success"}[5m]))
/ sum(rate(ai_planner_result_total[5m]))
阈值 颜色
< 80% 🔴 红
80–95% 🟡 黄
≥ 95% 🟢 绿

Panel 205 — RAG Hit Rate

类型:Stat(颜色阈值)
用途:显示 RAG 检索命中率,反映知识库覆盖质量

sum(rate(ai_rag_retrieval_total{result="hit"}[5m]))
/ sum(rate(ai_rag_retrieval_total[5m]))
阈值 颜色
< 50% 🔴 红
50–80% 🟡 黄
≥ 80% 🟢 绿

低命中率说明:需要补充向量库文档,或调整 topK / similarity threshold。


Panel 206 — Error Rate by Type

类型:TimeSeries(堆叠)
用途:按错误类型分组展示错误率,快速定位问题域

sum(rate(ai_error_total[5m])) by (type)
type 值 含义
config_error API Key 未配置 / AiConfigurationException
llm_error OpenAI 调用失败(网络/超时)
llm_auth_error OpenAI 认证失败(Key 无效)
validation_error 请求参数校验失败
internal_error 未预期的系统异常

访问方式

# 启动监控栈
docker-compose up -d prometheus grafana

# 访问 Grafana
open http://localhost:3000
# 账号:admin / admin123

# Dashboard 路径:Dawn AI > AI Application Metrics(最底部 Row)