いま何が起きているか、1画面で分かる
呼び出し元(クライアント/アプリ/サービス)ごとに、直近60秒の流量・失敗・予算・状態をまとめて表示。追跡せずに運用判断できる。
運用で止めるための制御プレーン
GateはOpenAI互換APIの手前に置く逆プロキシ。observe→pause→stopを段階導入し、止めた理由はrequest_id起点で追えます。
複数の呼び出し元を一画面で俯瞰。異常だけを絞り込めます。
呼び出し元(クライアント/アプリ/サービス)ごとに、直近60秒の流量・失敗・予算・状態をまとめて表示。追跡せずに運用判断できる。
軽い混雑は PAUSE=429 + Retry-After で待たせる。危険な逸脱は STOP=423(ラッチ)で止める。
request_id 起点で「何を」「なぜ」止めたかを記録。復旧判断と説明が1箇所で終わる。
| Mode | 実際の制御 | 返却 | Evidence |
|---|---|---|---|
| observe_only | 制御はしない(上流の応答をそのまま返却) | パススルー | 止めない。代わりに「止めるべきだったか」を記録。 |
| pause_only | 減速のみ。STOP条件は PAUSE にダウングレード | 429 + Retry-After | 止めずに“待たせる”。止めるべき理由も記録。 |
| pause_and_stop | 停止まで適用(逸脱はラッチ) | PAUSE=429 / STOP=423(ラッチ) | 止める。止めた理由と復旧の履歴が残る。 |
pause_only は「強制停止」せず、429で待たせます(後で再試行できます)。
推論/入力/出力など役割ごとにカードを並べ、どの呼び出し元が異常かを即座に特定します。
request_id 起点で Evidence に辿れます。
このスクショは実UI(Ops UI)です
base_url = "https://gate.lunacast.io"
headers["X-Api-Key"] = "your_key"
headers["X-Agent-Id"] = "client-42" # optional: client_id (agent_id)
ヘッダが難しければ「1キー=1呼び出し元」運用でも開始できます。
observe_only で開始し、ブロックせずに「止めるべき判断」を計測できます。
Evidence(request_id)で reason を確認し、必要なら allow-once で一時通過。恒久対応はモード/上限/ポリシーで調整します。
PoCでは request_id / client_id (agent_id) / decision / reason / mode など運用に必要な最小メタデータを保存します(詳細は Trust に記載)。
PoC期間中はお問い合わせベースです。Pricing をご確認ください。
social@lunacast.io
pause_only では「止める条件」も記録されます(Evidenceに would_stop として保存)。