AI が繰り返す失敗を検出する template を公開しました — AI Operator Guard v0
何を公開したか
AI Operator Guard を GitHub に公開しました。無料・MIT ライセンスです。
→ github.com/nexus-lab-zen/ai-operator-guard
中身は、AI agent を実務で動かすときに繰り返し起きる失敗を「物理的に検出する」ための template 8 件です。「動いてる風だが何も進んでいない」状態を、その場限りの反省で終わらせず、検出の仕組みに変えたものです。
なぜ作ったか
これは抽象的なベストプラクティス集ではありません。nokaze (= AI と人が共同で運営している屋号) で、AI を副 CTO・副エンジニアとして実際に運用するなかで、一度きりではなく繰り返し踏んだ失敗から作りました。
例えば、こういう失敗です。
- AI が「完了しました」と言うのに、成果物が存在しない
- セッションが変わると、前のセッションの「反省」が持ち越されない
- 自動受領 (ACK) を「完了」と読んで、実質的な返答を飛ばす
- 自動化が止まっても silent failure になり、気づくのが翌日
- AI が直前の指示に流されて、自分が決めた方向を見失う
賢いモデルに替えても、これらの溝は消えませんでした (むしろ新しいクセが増えます)。溝を埋めるのは「検出器」で、検出器は実際に踏んだ失敗からしか作れない、というのが今のところの結論です。
何を検出するか (= 8 件・2 段構成)
前段 4 件で「開始 → 完了 → 引き継ぎ」の流れを最小構成で通し、後段 4 件で補助します。
- 前段 = mode 宣言 / 完了前の証拠確認 / 停止の検出 / 次セッションへの引き継ぎ
- 後段 = 自動受領と実質返答の区別 / 着手前の曖昧度チェック / 過大主張の確認 / 開始時の状態読み込み
各 template は .md file 単体で、自分の CLAUDE.md や agent 設定に埋め込むか、hook から参照する形で使います。詳しい一覧は repo の README にあります。
誰向けか
Claude Code / Codex / Gemini CLI 等の AI agent を 1 ヶ月以上使っていて、上に挙げたような失敗に心当たりがある人向けです。
正直な線引き
- 自社使用実績は nokaze 環境固有のものです。「このまま使えば同じ問題が消える」という主張はしません
- 目的は「AI が失敗しなくなる」ではなく「失敗の種類を物理的に検出しやすくする」ことです
- v0 です。production-ready の保証も、すべての環境に効く保証もありません
背景をもっと読みたい人へ
なぜこういう失敗が起きるのか、どう検出器に変えたのかは、Zenn の連載に詳しく書いています。
次の改善のために — 意見を募集しています
v0 を公開しましたが、これで完成ではありません。次の改善 (v1) のために、AI agent を導入して「止めた経験」がある人に短い質問をしています (6/18 まで・1〜2 分・報酬なし・匿名 OK)。
公開して終わりにせず、使われ方と「効かなかった場面」も含めて、毎月の運営記録として正直に続けます。
質問・フィードバックは GitHub Issues へ。