MapR中身説明会に参加しました。(Jugemより移植)

Posted by johtani on Friday, January 20, 2012

目次

日時:2012/01/19 18:30-20:30 場所:ベルサール三田Room2シアター


Inside MapR
 デモ+内部のお話。
 ・自己紹介
  Susheel Kaushik
   元YahooのHadoop系の人。製品担当責任者。
  草薙さん

 3台のベアボーンでMapRが動いてるデモが開始。
 クラスタ管理画面の説明。
 なぜか、NFSのサービスが1台落ちてますがw
 MapReduceなんかの実行結果なども出てくるのか。
 ボリューム管理も画面から操作
 レプリケーション、スナップショットも管理画面で操作、動作確認できますよ。
 ミラー先はリードオンリーでボリュームの同期が可能。
 スナップショットによりMapRのクラスタ内部にバックアップが保持可能。
 NFSのHA構成可能。VIPの機能などもあるよ。
 事前定義された各種Alertの発行も可能。
 JobTrackerもMapRで拡張された表示がある。
 例:MapTaskPrefetchCapacity:次のジョブのMapperを起動する準備可能な仕組み
 MapR内で独自に出力してる測定値をGangliaで見ることができるよ。

 MapRはHadoopの置き換えとなる製品。
 HDFS部分を重点的に性能アップさせるために主に置き換えた製品。
 MapReduce部分にも手を入れてる。例:Direct Shuffle(HTTPじゃなくて、RPCでShuffleの通信を行ってるとか)ボリューム活用してるらしい。
 分散NameNode、JavaGCの影響の排除、ビルトイン圧縮によるI/O削減など。
 Mapperの出力をHDFSに置くと、メタデータ更新が多くなり、NameNodeがパンクする。(Apache Hadoop)
 Q:中間データもレプリケーションすると性能劣化しないんですか?
 A:中間データボリュームは特定ノードしか保持されない(=レプリカ数は1)

 ストレージプール(SP)
  ソフトウェアでストライピング。RAIDしなくてよい。
 コンテナ(データ、ネームがある。)
  データブロックをグループ化したもの
  ※ストレージプールの数と同数のボリュームを作成すべき。
 CLDBがコンテナを管理してる。

 Q:トランザクション失敗するのは?
 A:どこかにかければトランザクションは成功。
   コンテナが復旧してきたら、データがコピーされる。復旧されない場合は別途コンテナを割り当てることもある?

 Q:ノードが追加される場合の挙動は?
 A:。。。聞き逃した。

 トポロジ
  ノードを階層的にグループ化してデータ配置をコントロール。
 Q:トポロジ設定などの権限設定は?
 A:Permission画面があるよ。
 Q:ボリューム単位のファイルシステムアクセスに関する設定は?
 A:???聞き逃した?

 ボリューム
  いろいろな設定が可能。
 スナップショット
  Copy-on-Write方式による差分格納
 ミラー
  ソースからミラーにコピー。手動orスケジュールによる起動が必要。
  ミラー側はRead-only
  ※誤解を招きやすいので注意
  読み出しが多い場合にミラーを利用することで対応が可能。
 ビルトイン圧縮
  LZZFの一種を高速化してる
  ネットワークIOにも効いてくる
 JobTracker HA
  最大3ノードで構成可能。アクティブスタンバイ
 NFS HA
  すべてのノードで稼働可能。
 NFS機能
  NFSv3相当
  クライアント側にNFSサービスをインストールするという構成も可能に。
 Q:NFSマウントして作成したファイルもブロックサイズ分のファイルサイズになるの?
 A:8Kバイト単位で内部的にはファイルを作成してる。8KB単位で圧縮して管理してるので、小さいサイズでもいい。(アロケーションサイズが8KB)
 Q:8KBにしてしまったために大きなブロックサイズの利点がなくなるのでは?
 A:オーバーヘッド内容な構成になってる。シーケンシャルに8KBに並んでるから?
 Q:NFSによるとMapReduceによるアクセスの排他制御とかは?
 A:独自で頑張らないといけない。Job起動時に効果的にスナップショット取ったりはしてない。

 リバランスもバックグラウンドで実行可能
 Apache Hadoopが備えるJava APIは100%語幹
 Q:なんで、HDFSをがりっと書き換えたの?
 A:運用性も、ノード管理も。。。全部です。
   なくなっても良いデータなら、別にHadoopでもいいですよね。
   けど、基幹システムとかだと、信頼性が必要だし、運用の効率も必要だしいろいろ必要。
 Q:実績が必要なんですが、どのような試験を行われているのかという情報が公開される?EMCでやられてるテストのプロセスを適用しているなどの裏付けは公開されないの?
 A:内部で6ヶ月利用してデータロスはない。
   品質については強化していく。
 Q:MapRとしてHadoopコミュニティへの還元していく内容ってどんなもの?
 A:Apacheコミュニティに対して1000台のクラスタを提供してスケーラビリティテストとかやってくださいとしている。
 Q:このクラスタを実際にはどう使ってもらうの?
 A:品質アップするためにテスト環境として使ってもらう?
 Q:ApacheのAPIの互換性を死守するのが必ずしもいいとは思えない場合にどうするの?MapR独自APIとかは出さないの?
 A:ApacheのAPIに準拠するのは非常に重要。他のHadoop上のアプリが動作しなくなるから。
 Q:MapRを容量の大きなファイルシステムとしてだけ利用するなんて想定はありますか?MapReduceを利用しないパターンです。
 A:いや、それはw
 Q:MapRはエンタープライズがターゲットだけど、Amazonはパブリッククラウドが対象。マルチテナントなパブリックサービスでMapRを利用するとかは?
 A:。。。
 Q:ジョブ管理にも手を入れてるの?
 A:あんまり手を入れてません。
 Q:EMCのストレージ製品でMapRのMapReduceない版みたいの出てない?
 A:中身はMapRじゃないですよ。

想定とは異なり、日本の草薙さんが主に説明されたのですごくわかりやすかったです。 しかもかなり内部まで理解されている方だったので突っ込んだ質問にもきちんと回答されてるので更に理解が進みました。 今回利用された資料は現時点では公開の予定はないという話でした。 ただ、かなりまとまってる資料なので、後悔して欲しいものです。 普通にviとかしてるだけなのに、すごいと思うデモってなんか新鮮でした。 MapR自体を触る機会はまだまだないと思うのですが、MapRとしてHadoopに対する思想が垣間見えたのが面白かったです。 すごいメンツが質問を投げまくるのでいろいろな側面で話が聞けました。 ただ、やっぱり英語のヒアリングがダメダメだというのが露呈しました。。。今年は少し頑張らないと、先が思いやられますね。。。 あと、疑問と言うか、感想ですが、MapR自体が結構多機能で、その機能をどう扱うか、どのようなノード構成やボリューム構成を取るかといった設計が結構大事でしかも大変なんじゃないかなぁという印象を受けました。 特にマルチテナントで利用する場合などは、想定されないミラーの利用などでデータ容量が足りなくなったりといった側面も出てくるのかなぁと。

説明会のあと、Hadoopにあんまり絡んでないのに図々しくも飲み会にまで参加してきました。 これまた濃いメンバーだったので話についていくのも大変でしたが、面白い話が聞けました。やっぱり懇親会重要ですよねぇ。

事前にこのブログを読んでいたので話しを聞くのが楽でした。 MapR勉強するために必須のページです。(どうやら今日説明した人がかいてるきがしますが。。。)

追記: トゥギャってくれた人に感謝。  


comments powered by Disqus

See Also by Hugo


Related by prelims-cli