2020年4月16日木曜日

実録、ntopngでテレワーク導入時のトラブルを解決

急速にテレワークに移行している企業様が多くなっています。
弊社ジュピターテクノロジーもその例外ではなく、ほとんどの社員がテレワークに移行しました。

弊社は約50人規模の会社ですが、テレワークに移行する時に利用した方式、不具合発生時のトラブルシューティングテクニックの実際を本記事では紹介したいと思います。

そして、テレワークが始まった

弊社では本格的にテレワークが始まったのが2020年4月1日(水)からでした。
一方、4月8日(水)時点での東京商工会議所調べでは実施企業26%、検討中企業19.5%といった結果となっております。
つまり、まだまだこれからテレワークを展開する企業が増えてくると考察できます。

テレワーク時に必要なものは?

ここで、読者の皆さんが考えるテレワークというのは、どういった形態のものでしょうか?
業種業態によって一意には決められないと思いますが、弊社のような割と社内資産にアクセス出来れば各社員の稼働を継続できるといった企業様にテレワークは「はまる」と考えております。
ここでいう社内資産を以下にまとめてみました。

テレワーク時に必要な社内資産
項番項目備考
1メールサーバー自社ドメインのメール送受が必要
2社内設置ファイルサーバー社内データへのアクセス、編集等が必要
3社内WEBシステム勤怠、経費、QAシステム等のシステム利用が必要
4社内設置の自パソコン業務で利用するソフトウェアの利用が必要
5会議システム打ち合わせ時のオンライン会議
               表1 テレワーク時にアクセスが必要なリソース

この表1をみて自宅パソコンから社内設置のパソコンにアクセスできれば、ほとんど解決できそうだと考えた方は一定数いるのではないでしょうか。
本記事を書いている私自身も現在テレワーク中ですが、技術職といった職種が大きく影響しておりますが、自宅から会社設置の自パソコンを遅延なく操作出来ているので、業務にまったく支障が出ておりません。

弊社テレワーク環境をご紹介


               図1 弊社テレワーク環境

弊社が入居するビルは3フロアあり、今回検証用に利用していたNTTフレッツ光の1Gbps回線を流用することで、テレワーク環境を構築しました。
※既存の回線は、一般利用者のサービス提供用途に利用しているのでテレワーク利用の負荷をメーンの回線にかけたくないといったのが大きな理由です。
このフレッツ光の契約はパブリックIPが一つ割り振られるもので、各社員はこのIPめがけてIPsec VPNを張って社内の自PCセグメントのみアクセスできるようにポリシーをかけています。
こうすることで、自宅設置の個人PCから直接社内のファイルサーバー等のリソースへアクセスさせないといった制限をかけています。
つまり、自宅のPCを大げさにいえばVDI化をする。ドメイン環境があれば、グループポリシーでRDP中のファイルコピー等は禁止といったポリシーをかければさらにセキュアになっていきます。
この環境は非常に安く構築することができ、社員50名くらいであれば回線費用は別で、Fortigateの廉価モデルであれば12万円前後で構築することができます。

接続が頻繁に切れるとの問い合わせ

4月2日(木)に図1のテレワーク環境を設置して、しばらくは遅延なく快適に利用していましたが、4月13日(月)の朝にリモートデスクトップがちょくちょく切れるとの連絡がありました。
そこで、Fortigateの管理画面でどれくらい帯域を使っているのか確認してみました。

                                                  図2 Fortigateの帯域画面

最大でも3Mbps程度で回線には全然余裕がありそうです。
それもそのはず、RDPは画面の表示のみなので、ファイルの複製を禁止すればIPsec VPNを50人張ろうが対して帯域を食わないのです。
では、RDPが切れる原因は何だということになるのですが、そこで弊社が販売するntop社のntopng™の登場です。

ntopng™の活用

              図3 ntopng™利用イメージ 

このntopng™というツール自体は、私がテレワークに入る前にすでにインストール済みでしたので、ここからのトラブルシュートは全て自宅で行っております。
先ず、問題が起きているAさんのPCが接続されているルーターからntopng™へ収集したデータを確認しました。
すると問題が起きている時間帯に帯域を食っている通信が複数あることが分かりました。

ntopng™が優れているところが、DPIとNetFlowを合わせた解析ができることにあります。
つまり、L2, L7アプリケーション分析ができます。
ここで、この帯域を食っているトラフィックの一つがIPカメラのMACアドレス・IPアドレスであること、あるVPNユーザーがファイルサーバーから社内の自PCへ大きなファイルの複製を行っていることが瞬時に分かっています。

次に、上位ルーターのインターフェイス状態を確認しました。
私は社内のネットワーク管理者ではないので、少々驚きでしたがこの上位ルーターのリンクスピードは最大100Mbpsといった代物でした・・・

つまり、トラブルがあった時間帯にこの上位ルーターの性能を上回る負荷が発生し、Aさんや他の方がリモートデスクトップの接続のみが切れていたということになります。
※IPsec VPNは切れていない

最後にWチェックとして、ntopng™で収集しているパケットをWiresharkで確認しましたが、帯域を食っている犯人はあるユーザーのファイル複製とIPカメラであることが断定できました。
                                      図4 パケットキャプチャの取り出し

暫定対処

今回発生した不具合は、
  1. Local to Local の大きなファイルの複製
  2. IPカメラの帯域食い
  3. 上位ルーターの低スペック
この3つが原因であることが分かりました。
項番1は業務に必要な行為なので注意はできても禁止はできません。
項番3は、ネットワーク機器自体をリプレースする必要があるので、直ぐに対処はできないです。
よって、今回は暫定対処として急な負荷を生成する項番2のIPカメラを停止してもらうことになりました。

まとめ

弊社と同じようなソリューションで、テレワークにマッチする企業様もあるかと思いますので、本記事を御社のテレワーク導入の参考にしていただければ幸いです。

本記事で扱っているntop社のntopng™という製品ですが、ご興味のある方は以下のリンクから弊社までお問い合わせください!