Grafana Dashboard — AI Application Metrics 面板说明¶
文件:
grafana/dashboards/spring-boot.json
新增 Row:AI Application Metrics(Panel ID 200–206)
面板列表¶
Panel 201 — Tool Execution Duration P95 (ms)¶
类型:TimeSeries
用途:监控每个工具的 P95 执行耗时,识别慢工具
histogram_quantile(0.95,
sum(rate(ai_tool_duration_seconds_bucket[5m])) by (le, tool)
) * 1000
告警建议:P95 > 3000ms 时触发告警
Panel 202 — Tool Call Rate by Tool & Status¶
类型:TimeSeries
用途:展示各工具的调用频率,区分成功/失败
sum(rate(ai_tool_calls_total[5m])) by (tool, status)
关注点:status=error 曲线上升代表工具稳定性下降
Panel 203 — Token Consumption Rate (tokens/s)¶
类型:TimeSeries
用途:实时监控 LLM Token 消耗速率,用于成本控制
# 输入
rate(ai_token_input_total[1m])
# 输出
rate(ai_token_output_total[1m])
扩展:可配合 OpenAI 单价计算每秒成本(如 input $0.002/1K tokens)
Panel 204 — TaskPlanner Success Rate¶
类型:Stat(颜色阈值)
用途:显示 TaskPlanner 规划成功率
sum(rate(ai_planner_result_total{status="success"}[5m]))
/ sum(rate(ai_planner_result_total[5m]))
| 阈值 | 颜色 |
|---|---|
| < 80% | 🔴 红 |
| 80–95% | 🟡 黄 |
| ≥ 95% | 🟢 绿 |
Panel 205 — RAG Hit Rate¶
类型:Stat(颜色阈值)
用途:显示 RAG 检索命中率,反映知识库覆盖质量
sum(rate(ai_rag_retrieval_total{result="hit"}[5m]))
/ sum(rate(ai_rag_retrieval_total[5m]))
| 阈值 | 颜色 |
|---|---|
| < 50% | 🔴 红 |
| 50–80% | 🟡 黄 |
| ≥ 80% | 🟢 绿 |
低命中率说明:需要补充向量库文档,或调整 topK / similarity threshold。
Panel 206 — Error Rate by Type¶
类型:TimeSeries(堆叠)
用途:按错误类型分组展示错误率,快速定位问题域
sum(rate(ai_error_total[5m])) by (type)
| type 值 | 含义 |
|---|---|
config_error |
API Key 未配置 / AiConfigurationException |
llm_error |
OpenAI 调用失败(网络/超时) |
llm_auth_error |
OpenAI 认证失败(Key 无效) |
validation_error |
请求参数校验失败 |
internal_error |
未预期的系统异常 |
访问方式¶
# 启动监控栈
docker-compose up -d prometheus grafana
# 访问 Grafana
open http://localhost:3000
# 账号:admin / admin123
# Dashboard 路径:Dawn AI > AI Application Metrics(最底部 Row)