Splunk Live!のイベントに行って来ました。(Jugemより移植)

Posted by johtani on Wednesday, November 9, 2011

目次

Solr本の武田さんから教えていただいたSplunkの イベントに行って来ました。 Splunkとは様々な機器のログなどを一箇所に集めてリアルタイムに検索、分析できるようにするための製品です。(ざっくりした説明ですが。。。) ちなみに、データ量が小さければフリー版も用意されています。 以前、話しを聞いていて気になっていた所イベントが開催されるということだったので参加してきました。 以下に、その時取ったメモを記載しておきます。いつものごとく、自分用のメモなので、役に立つかはわかりませんが。

Splunk Live! in toyosu

日時:2011/11/02 10:00-12:00 場所:豊洲


1.挨拶+アジェンダ紹介
2.ビッグデータ取り込み、ロードマップ(Splunk Inc.)CEO Godfrey Sullivan
 英語でした。。。
 データの種類と量が大きくなってきてるのに、ツールが追いつかないし、回答するのもはやくしろと言われる。
 非構造化データの例としてApacheのログが出ていた。
 TimeSeriesのフラットファイルがsplunkのデータのインデックス。(No RDB=スキーマいらないよと。) 
  ※ここが重要な点かもしれない。
 リアルタイムに解析できるのが売り。Jubatusとの違いとか聞くと面白いかも。
 Machine Data Engine=Splunk
 データの関連付けの方法がどんなものか?
 事前のスキーマが不要=流しこむ前には定義が必要?だよね?
 ?No need to filter/forward??
 デベロッパーフレームワークってなんだ??
 Splunkbaseと呼ばれる場所にSplunk Appsと呼ばれるアプリケーションがある。色々な場所、OS、アプリで利用できるものらしい。
 ?自動監視も学習する仕組みがある??
 それとも定義するのか?
 あくまでもMachine Dataと言っている。これは、ユーザのリレーションの解析などはないということか?
 Leading Social Gaming Company=Zynga
 Introscopeのログバージョンに似てるかもなぁ。
 Cloudベースのアプリの解析にも利用(saleforce)
 色々な利用シーンのお話。

3.適用事例(独立行政法人理化学研究所)
 和光と神戸で利用。10G程度のデータを扱ってる?
 ログから情報基盤を監視するのに利用している。
 syslogベースでsplunkにログを送信している。
 事例1:VPNに接続できない(接続数上限がある?)
  CISCOのログから解析
  どの研究室で発生しているかも検索。
 事例2:DHCPの接続ミス?(IPアドレスロスト)
  ここまでは問題が発生してからログを漁るという使い方。
 事例3:LINK FLAPのアラート
  短時間にUPDOWNを繰り返す場合にスイッチがおかしくなってるんでは?
 事例4:メール大量送信(ウィルス感染)
  不特定多数のサーバに短時間でメールを配信している

 ※使い方としては情報基盤環境すべて(ネットワークとかサーバなど)のログを集めておいて監視+解析に利用して障害対応などに利用している?データセンターとかに入れるのか?

 あくまでも、ログを保存して、検索できる仕組みが1箇所にまとめられているという感じ。
 そのログの解析について(どういった問題に対して、どういったクエリを投げるか?どういったトラップを仕込むか?)は利用する側の腕にかかっている印象。
 ※実際に触ってみたいなぁ。500M/dayか。ご近所に入れてみるか?syslogで転送設定+入れるサーバが必要。

4.最新アプリなどの紹介(Splunk Inc.)
 GUIがきれいだなー(最近のgoogleっぽいが。。。)
 リアルタイムにデータが入っているのが見えるのか。おもろいな。
 どこのフィールドにヒットしたかがファセットで表示できるらしい。おもろい。
 flashでできたビューがすごくおもろかったぞ。(ドキュメントどこだ?)

5.最新の取り組み(NTTデータ先端)
 やっぱり武田さんだった。
 複数の監視システムのメッセージを統合して検索、アラートを出せるようにする。
 消費電力を算出するためにログを集めて集計する。

6.QA
 ロードマップ
  ・2年以内にビジネスサイドでの利用に向けての動きを見せていく予定。
  ・アプリケーションフレームワークにして、他のパートナーのアプリを載せていきたい。

ということで、感想ですが、事例紹介などを聴いた感じだと今のところはインフラ系のログを一元化して検索、監視、アラートをあげるということに活用するためのツールの用に感じました。 当初の使い方がそういったところにあるためだとは思いますが。 開発者としての視点で話しを聞いていて、活用できそうだというのは次のシーンでしょうか。

  • 開発時の開発環境のログ集約
  • 性能試験などでのログ、性能データ集約

開発時点もしくは性能試験時ですが、色々なサーバ(DBやアプリサーバ)の時間を横串にして表示検索などができると思うので、問題があった時の各種サーバの状態を一元的に見れるため、どのサーバにどういった負荷がかかっていたか、 どこに問題があったかなどをグラフ化して見ることが簡単にできるのではないかなぁという感想です。 あとは、ログが一元化されているので、問題があったときにまずログを検索すればいいのが楽ですかね。

基本的にはログが集まってるからあとは、どう使うかはご自由にという印象でした。 どのようなログを集めておき、どういったトラップでアラートさせるか、どのような検索をすれば望んでいるログが出てくるか、どのような集計をしたいかなどについては、やはり導入してからノウハウを貯めていくか、導入時にコンサルしてもらうなどが必要かと。 また、このツールを入れることでどのようなフィードバックをどのように活用できるかをイメージしていなければ、 宝の持ち腐れになりそうです。 あとは、使い方次第ですが、サーバログ以外にアプリログ(ユーザの行動履歴とか)などを入れることで、インフラ以外での使い道もありそうです。 とりあえず、保存しておいて、あとから特定の傾向を見出すのに検索できるのはちょっと面白いかも。

あ、そうそう、ストラップとUSBメモリ(4G)のノベルティをお土産にもらいました。無料セミナーなのに。


comments powered by Disqus

See Also by Hugo


Related by prelims-cli