2018年5月15日火曜日

【PRTG Network Monitor】バックアップ失敗!そのメールを見逃さない 【Arcserve UDP連携検証】

PRTGはネットワーク監視のオールインワンソリューションソフトです。
トラフィック監視から、サーバーの可用性やリソースの監視まで、幅広い領域をこの一つのソフトでカバーできます。

ブログの前半ではPRTGのIMAPサーバー監視機能を応用して、バックアップジョブステータスメールのチェックを自動化する例をご紹介いたします。

ブログの後半は、高度な機能を持つバックアップソリューションのアプライアンス Arcserve Unified Data ProtectionについてPRTGの自動検出機能で監視設定をした検証結果です。
前半のテーマは、時間の足りないシステム管理者のみなさまへ「読まなくてよい通知メールは読み飛ばし、大事なメールは見逃さない」です。

ジョブを実行する多くのソフトウェアにはメール通知機能があります。問題は通知メールを管理者が確認する暇がないことです。「いつの間にかジョブが止まっていて…」これが一番釈明しにくい事態です。

ジョブステータスメールの解決すべき状況

  • スケジュールされたジョブが終了すると、ステータスメールが送信されます。メールの内容は、大部分はジョブの「成功」ですが、まれに「失敗」になっています。
  • メールが届かない場合についても、その原因をチェックする必要があります。
  • 管理者は全メールの0.1%~0.01%の異常に気付かなければならないでしょう。
  • このようなスケジュールの総数は数十を超える場合もあります。 

IMAPセンサーの活用

 PRTGにはIMAPセンサーがあります。このセンサーには、IMAPサーバーの可用性をチェックする基本機能に加えて、メールの件名や本文の中のキーワードをチェックする機能があります。
検索キーワードを設定することによって
  • 「一部成功」の場合は、センサーのステータスを「警告」に
  • 「失敗」の場合は、センサーのステータスを「ダウン」に
それぞれ変化させることができます。

 さらに特定の時間(例えば24時間)が経過してもメールが届かない場合についても「ダウン」にすることができます。

IMAPセンサーの状態が「警告」や「ダウン」になったことを捉えて、Eメール送信やプログラムの実行など、様々なPRTGの通知機能をトリガーすることができます。

検証について

実運用に近い形で検証をしてみました。使用した機器の接続状態は図の通りです。

検証時の機器の接続状態


バックアップにはArcserve Unified Data Protection 7300を使用しました。Arcserve Unified Data Protection 7300は統合型バックアップソリューションのアプライアンスです。Windows、Linuxのスタンドアローンサーバーに対応するだけではなく、物理環境、仮想環境、クラウドといった複雑な環境にも対応した製品です。
※Arcserve Unified Data Protection 7300は、Arcserve Japan様にご協力頂いて、ソフトバンク コマース&サービス様から検証機を貸与いただきました。この場を借りて御礼申し上げます。
※Arcserve Unified Data Protection 7300については以降UDPと略記いたします。

手作業でメーラーをチェックする代わりに、そのチェックをPRTGにさせる設定はとても簡単です。IMAPサーバーをデバイス登録して、バックアップジョブごとに追加したIMAPセンサーにキーワードを設定するだけです。

検証では、PRTGのIMAPセンサーに次のような設定をしました。
 


UDPからは通知メールが送信されます。これはバックアップ失敗の例です。
UDPから送信されたメールの例


IMAPセンサーに設定された検索キーワードに一致したのでセンサーが赤くダウンします。

このブログではIMAPセンサーの細かな機能について十分な説明ができませんので、興味を持たれた方は、PRTGを実際に使ってみてください。IMAPセンサーを使用した監視は、応用できる範囲が広いと思われます。ぜひ試してみてください。

※ブログの最後のトライアル版の請求リンクをご確認ください。

UDP本体との連携について
ここからは後半のテーマです。

今回使用したUDPは高度な機能がアプライアンスとして凝縮されています。その様々な機能は、OSレベルのプラットフォームのWindows Server 2012R2とHyper-V内で稼働するLinuxサーバーで実現されています。今回の検証機はハードウェアレベルではIPMIにも対応していました。
PRTGはWindows、Hyper-V仮想環境、IPMIの監視、これら全てに対応しております。

もちろんUDP単体でも使いやすいウェブコンソールがあって、様々なステータスのチェックができますが、PRTGと連携させるメリットは、長期間の時系列監視データが保存されることです。

前述のIMAPセンサーに加えて、以下の設定を追加しました


追加でしたことは、監視対象デバイスとしてUDP(Windows)、UDP(IPMI)を登録して、追加できるセンサーを自動検出するだけです。以下は自動設定されたセンサーの例です。

《IPMIセンサー》
センサー名(自動設定)
データチャンネル名(自動設定)
備考
IPMI Sensor Fan
FAN1
FAN2
FAN4
FAN5
FAN7

単位:RPM

※正常なRPM値の範囲をIPMIより取得します。
IPMI Sensor Power Supply
PS1 Status
PS2 Status
※センサー状態が返り値によりOK、警告、エラーと変化します。
IPMI Sensor Temperature
CPU Temp
PCH Temp
System Temp
Peripheral Temp
VcpuVRM Temp
VmemABVRM Temp
VmemCDVRM Temp
DIMMA1 Temp
DIMMB1 Temp
DIMMC1 Temp
DIMMD1 Temp
単位:℃

※警告値、エラー値をIPMIから取得し、その値を上回ると、それぞれセンサー状態が、警告、ダウンと変化します。
IPMI Sensor Voltage
12V
5VCC
3.3VCC
VBAT
Vcpu
VDIMMAB
VDIMMCD
5VSB
3.3VSB
1.5V PCH
1.2V BMC
1.05V PCH
単位:V

※警告値、エラーの範囲をIPMIから取得し、その値の範囲を外れると、それぞれセンサー状態が、警告、ダウンと変化します。




《Windows用センサー》
センサー名(自動設定)
データチャンネル名(自動設定)
備考(単位)
QLogic 57840 10Gigabit Ethernet Adapter_123

※センサーの種類は「Windowsネットワークカード」です。
受信トラフィック
受信パケット
受信ユニキャスト
受信非ユニキャスト
受信エラー
受信破棄

送信トラフィック
送信パケット
送信ユニキャスト
送信非ユニキャスト
送信エラー
送信破棄

合計 ※送受信トラフィック合計
パケット数 ※送受信パケット合計数




Kbit/秒、KB
件数
件数
件数
件数
件数

Kbit/秒、KB
件数
件数
件数
件数
件数

Kbit/秒、KB
件数

※単位KbitKBはデバイスの設定でMbitMBなどに変更できます。

Hyper-Vホストサーバー
CPU使用率(ゲスト)
CPU使用率(ハイパバイザー)
CPU使用率(合計)
ネットワークトラフィック
ホストヘルスクリティカル
置き換えられたページ数 VM管理のためにハイパバイザーが使用しているメモリ量

%
%
%
バイト数/
件数
ページ数


Linux-BackupSvr

※センサーの種類は「Hyper-V仮想マシン」です。

CPU使用率(ゲスト)
CPU使用率(ハイパバイザー)
CPU使用率(合計)
IDE Readバイト/
IDE Writeバイト/

%
%
%
バイト数/
バイト数/

WMI SMART \\./PHYSICALDRIVE0

※センサーの種類は「WMI
HDDヘルス」です。HDDS.M.A.R.T.情報を取得します。

001: Read Error Rate
005: Reallocated Sectors Count
009: Power-On Hours
012: Power Cycle Count
184: End-to-End error / IOEDC
187: Reported Uncorrectable Errors
188: Command Timeout
194: Temperature Celsius
195: Hardware ECC Recovered
197: Current Pending Sector Count
198: Uncorrectable Sector Count
199: UltraDMA CRC Error Count
202: Data Address Mark errors
206: Flying Height

※取得される値はHDDメーカーにより設定されたS.M.A.R.T.の指標値です。値の増減からHDDの健全性を判断します。
WMIディスク空き容量(複数ドライブ)
空き容量(バイト)C:
空き容量(バイト)X:
空き容量(バイト)Y:
空き容量 C:
空き容量 X:
空き容量 Y:
合計                               

MB
MB
MB
%
%
%
MB 

※Windowsのドライブ全てを自動検出して、空き容量をMB%で表示します。





以上のように、簡単な手順で、ディスクの空き容量不足や、ハードウェアの経年変化を把握するための設定ができて、PRTGからその通知を受け取れるようになりました。

※UDP 7000シリーズは、2018年3月で販売終了とのご連絡をArcserve Japan様からご連絡いただきました。後継製品はUDP 8000シリーズで、同等機能を備えており、本ブログでご紹介したような利用方法ができるとご教示いただきました。


まとめ

最初に「PRTGはネットワーク監視のオールインワンソリューションソフトです」と書きましたが、ネットワーク機器の監視だけではなく、このブログでご紹介したような用途にも使用できます。それら全てを統合してPRTGの通知にまとめられることに、興味を持っていただけたのではないでしょうか。

PRTG Network Monitorは30日間は機能制限なしに評価できます。またその後は100センサーのフリー版として無期限に使用できます。
ぜひPRTGのネットワーク監視機能をお試しください。

PRTG Network Monitorをトライアルをご希望の方は以下のリンクをご参照ください。
https://www.jtc-i.co.jp/product/prtg/prtg.html
https://www.jtc-i.co.jp/support/download/
最後まで読んでいただいてありがとうございました。