Skip to content

Droongaノードの不調の検出手順

YUKI "Piro" Hiroshi edited this page Apr 8, 2014 · 5 revisions

考え方

  • Disk Fullの警告が上がってきて欲しい。
    • ディスク全体の容量に対して、使用中の領域があらかじめ決めておいたパーセンテージ(例えば、80%など)を越えたら警告する。
  • 単調増加のデータがあらかじめ決められたQuotaの上限に近づいている、という警告が上がってきて欲しい。
    • Quotaの上限に対して、使用中の領域があらかじめ決めておいたパーセンテージ(例えば、80%など)を越えたら警告する。
  • 応答が無くなっているノードについて、警告が上がってきて欲しい。
    • ステータス取得用のコマンド(別途定める)を1分間隔で自動発行して、結果が返ってきたらそのノードは生きていると判断する。
      • ステータス取得では、簡単な検索を実行して、ヒット件数を見る? それだと負荷が大きすぎる? sortByでlimit:1にすれば高速か?
  • 【曖昧な項目:検索結果がおかしいと見なす判断基準】応答はあるが検索結果がおかしい、というノードについて、警告が上がってきて欲しい。
    • これは、実際にそう言う事例が発生してから考えた方がよいか? あまりに漠然としていて、事前に条件を特定できない。
      • 実運用においては、任意の検索クエリと期待される検索結果のパターンを登録できるようにしておく、というのも便利かも。

手作業での手順

  1. どれかのノードに、検索のコマンドを発行するcronjobを設定する。 cronjobは、結果が期待通りに返ってこなかったらエラーを返す(メールで通知する)ようにする。

自動化の指針

  • ディスク使用量についてはMuninなど既存の監視の仕組みをそのまま使えば良さそう。
  • Droonga固有の情報について、Muninプラグインなどの方法で既存の監視の仕組みに取り込めるようにする。