运营

可观测性

生产遥测运行在三条腿上：Sentry 用于错误，OpenTelemetry 跟踪用于热路径， Horizon 用于队列健康。管理员 Site Health 药丸（参见 Site health & failed jobs）一目了然地总结它们。

Sentry

设置 SENTRY_DSN，应用程序中未处理的异常会流入 Sentry，带有堆栈跟踪、请求上下文和用户/工作区元数据。面包屑轨迹捕获每个错误的最后 100 行日志。通过 sentry-laravel 集成。

Sentry 中有用的过滤器：

OTEL 导出器将跟踪发送到 OTEL_EXPORTER_OTLP_ENDPOINT — 通常是 Honeycomb 或 Grafana Cloud Tempo。Span 包装热路径：

每个 span 都标记有 workspace_id、agent_id、conversation_id、 provider（cloudflare / openai）和任何缓存命中标志。重要的是 rag.llm.first_token 的 p95 — 那是您的热路径 SLO。

/horizon 是队列仪表板。生产环境必需 — 没有它，您对积压情况视而不见。观察：

要监视的队列：

队列	上面有什么
`default`	杂项：使用事件、间隙检测、审计日志、webhook 交付。
`crawl`	CrawlSourceJob、CrawlPageJob、IngestNotionPageJob、IngestGoogleDocJob。往往是队列深度最长的。
`index`	IndexDocumentJob、IndexTextSourceJob。嵌入繁重。

标准 Laravel 日志记录。默认通道：

使用 php artisan pail 在本地跟踪日志。

GET /up 是就绪探针 — 如果应用程序启动，返回 200 和小 JSON 主体。将其用于负载均衡器健康检查。对于更深入的检查，App\Support\PlatformAdminHeader 运行多步健康检查，并通过 Inertia 共享属性在每个管理员页面上公开结果。

最重要的少数指标：

推荐的 PagerDuty / Slack 警报：

管理面板中的标题药丸是快速视觉检查，确保一切配置正确。绿色是稳态；如果变为琥珀色，下拉列表告诉您哪个检查失败并链接到设置页面进行修复。参见 Site health & failed jobs。