@johtaniの日記 3rd

@johtani's blog 3rd edition

今興味があること(Jugemより移植)

昨年末に今年の抱負について書いたのですが、 他にも興味あるものが増えたので備忘録&公約?を兼ねてブログに書いておきます。 (興味あるものがあれば、シェアしたりできると楽しいので、ツイート、コメント待ってます。)

モーショノロジー2012#1に参加しました。(Jugemより移植)

ということで、いつものように勉強会に参加したメモです。 http://atnd.org/events/23608 日時 :2012/01/26 19:00 to 22:00 会場 :アカデミーヒルズ(六本木ヒルズ内) 49階(タワーホールA) (港区六本木6-10-1) ハッシュタグ :#mnlgy

MapR中身説明会に参加しました。(Jugemより移植)

日時:2012/01/19 18:30-20:30 場所:ベルサール三田Room2シアター Inside MapR デモ+内部のお話。 ・自己紹介 Susheel Kaushik 元YahooのHadoop系の人。製品担当責任者。 草薙さん 3台のベアボーンでMapRが動いてるデモが開始。 クラスタ管理画面の説明。 なぜか、NFSのサービスが1台落ちてますがw MapReduceなんかの実行結果なども出てくるのか。 ボリューム管理も画面から操作 レプリケーション、スナップショットも管理画面で操作、動作確認できますよ。 ミラー先はリードオンリーでボリュームの同期が可能。 スナップショットによりMapRのクラスタ内部にバックアップが保持可能。 NFSのHA構成可能。VIPの機能などもあるよ。 事前定義された各種Alertの発行も可能。 JobTrackerもMapRで拡張された表示がある。 例:MapTaskPrefetchCapacity:次のジョブのMapperを起動する準備可能な仕組み MapR内で独自に出力してる測定値をGangliaで見ることができるよ。 MapRはHadoopの置き換えとなる製品。 HDFS部分を重点的に性能アップさせるために主に置き換えた製品。 MapReduce部分にも手を入れてる。例:Direct Shuffle(HTTPじゃなくて、RPCでShuffleの通信を行ってるとか)ボリューム活用してるらしい。 分散NameNode、JavaGCの影響の排除、ビルトイン圧縮によるI/O削減など。 Mapperの出力をHDFSに置くと、メタデータ更新が多くなり、NameNodeがパンクする。(Apache Hadoop) Q:中間データもレプリケーションすると性能劣化しないんですか? A:中間データボリュームは特定ノードしか保持されない(=レプリカ数は1) ストレージプール(SP) ソフトウェアでストライピング。RAIDしなくてよい。 コンテナ(データ、ネームがある。) データブロックをグループ化したもの ※ストレージプールの数と同数のボリュームを作成すべき。 CLDBがコンテナを管理してる。 Q:トランザクション失敗するのは? A:どこかにかければトランザクションは成功。 コンテナが復旧してきたら、データがコピーされる。復旧されない場合は別途コンテナを割り当てることもある? Q:ノードが追加される場合の挙動は? A:。。。聞き逃した。 トポロジ ノードを階層的にグループ化してデータ配置をコントロール。 Q:トポロジ設定などの権限設定は? A:Permission画面があるよ。 Q:ボリューム単位のファイルシステムアクセスに関する設定は? A:???聞き逃した? ボリューム いろいろな設定が可能。 スナップショット Copy-on-Write方式による差分格納 ミラー ソースからミラーにコピー。手動orスケジュールによる起動が必要。 ミラー側はRead-only ※誤解を招きやすいので注意 読み出しが多い場合にミラーを利用することで対応が可能。 ビルトイン圧縮 LZZFの一種を高速化してる ネットワークIOにも効いてくる JobTracker HA 最大3ノードで構成可能。アクティブスタンバイ NFS HA すべてのノードで稼働可能。 NFS機能 NFSv3相当 クライアント側にNFSサービスをインストールするという構成も可能に。 Q:NFSマウントして作成したファイルもブロックサイズ分のファイルサイズになるの? A:8Kバイト単位で内部的にはファイルを作成してる。8KB単位で圧縮して管理してるので、小さいサイズでもいい。(アロケーションサイズが8KB) Q:8KBにしてしまったために大きなブロックサイズの利点がなくなるのでは? A:オーバーヘッド内容な構成になってる。シーケンシャルに8KBに並んでるから? Q:NFSによるとMapReduceによるアクセスの排他制御とかは? A:独自で頑張らないといけない。Job起動時に効果的にスナップショット取ったりはしてない。 リバランスもバックグラウンドで実行可能 Apache Hadoopが備えるJava APIは100%語幹 Q:なんで、HDFSをがりっと書き換えたの? A:運用性も、ノード管理も。。。全部です。 なくなっても良いデータなら、別にHadoopでもいいですよね。 けど、基幹システムとかだと、信頼性が必要だし、運用の効率も必要だしいろいろ必要。 Q:実績が必要なんですが、どのような試験を行われているのかという情報が公開される?EMCでやられてるテストのプロセスを適用しているなどの裏付けは公開されないの? A:内部で6ヶ月利用してデータロスはない。 品質については強化していく。 Q:MapRとしてHadoopコミュニティへの還元していく内容ってどんなもの? A:Apacheコミュニティに対して1000台のクラスタを提供してスケーラビリティテストとかやってくださいとしている。 Q:このクラスタを実際にはどう使ってもらうの? A:品質アップするためにテスト環境として使ってもらう? Q:ApacheのAPIの互換性を死守するのが必ずしもいいとは思えない場合にどうするの?MapR独自APIとかは出さないの? A:ApacheのAPIに準拠するのは非常に重要。他のHadoop上のアプリが動作しなくなるから。 Q:MapRを容量の大きなファイルシステムとしてだけ利用するなんて想定はありますか?MapReduceを利用しないパターンです。 A:いや、それはw Q:MapRはエンタープライズがターゲットだけど、Amazonはパブリッククラウドが対象。マルチテナントなパブリックサービスでMapRを利用するとかは? A:。。。 Q:ジョブ管理にも手を入れてるの? A:あんまり手を入れてません。 Q:EMCのストレージ製品でMapRのMapReduceない版みたいの出てない? A:中身はMapRじゃないですよ。 想定とは異なり、日本の草薙さんが主に説明されたのですごくわかりやすかったです。 しかもかなり内部まで理解されている方だったので突っ込んだ質問にもきちんと回答されてるので更に理解が進みました。 今回利用された資料は現時点では公開の予定はないという話でした。 ただ、かなりまとまってる資料なので、後悔して欲しいものです。 普通にviとかしてるだけなのに、すごいと思うデモってなんか新鮮でした。 MapR自体を触る機会はまだまだないと思うのですが、MapRとしてHadoopに対する思想が垣間見えたのが面白かったです。 すごいメンツが質問を投げまくるのでいろいろな側面で話が聞けました。 ただ、やっぱり英語のヒアリングがダメダメだというのが露呈しました。。。今年は少し頑張らないと、先が思いやられますね。。。 あと、疑問と言うか、感想ですが、MapR自体が結構多機能で、その機能をどう扱うか、どのようなノード構成やボリューム構成を取るかといった設計が結構大事でしかも大変なんじゃないかなぁという印象を受けました。 特にマルチテナントで利用する場合などは、想定されないミラーの利用などでデータ容量が足りなくなったりといった側面も出てくるのかなぁと。

OSSAJのミニセミナーで話しをしてきました(Jugemより移植)

お久しぶりです。インフルエンザで一家全滅という最悪の状況に陥っていた我が家でした。 流行してるみたいなのでみなさんも気をつけてください。 さて、そんな中、OSSAJのミニセミナーでSolrについて簡単に話しをしてきました。 人生初Ustだったのですが、ぶっ倒れている中作成した資料だったためなんとも情けない発表だった気がします。(言い訳カッコ悪いですね。。。) 関係者の皆様、申し訳ございませんでした。

lucene-gosenのLucene/Solr4.0対応ブランチ更新(Jugemより移植)

先日のSolr勉強会でLucene/Solr4.x系のlucene-gosenについて質問を受けていたのを忘れないように(年越しちゃいました、すみません。)先週金曜日(1/6)にissueに登録しました。 まずは忘れないようにと思って、登録だけして3連休に突入したのですが、Robertさんが1/7に対応してくれました。 Lucene/Solr 4.x系では3.x系とはパッケージやメソッドが変更されるなど少し異なる部分があります。 lucene-gosenでは、プロジェクトのページにもあるとおり、4.x系にも対応しています。 ただ、この4x系に対応したブランチが、2011年5月から放置されていました。

あけましておめでとうございます+会社のブログ更新(Jugemより移植)

あけましておめでとうございます。(もう5日ですが。。。) 今年もlucene-gosenを中心に色々と記事を書いていきますので、ツッコミ、コメント待ってます。

今年の振り返りと来年の抱負?(Jugemより移植)

他の方たちよりひと足はやいですが、今年の仕事が終わりました。 せっかくブログを始めたので、振り返りと来年の抱負など書いてみようかなと。 今年の振り返り まずは、今年1年を振り返ってみます。 今年の出来事はこんな感じでした。

第2.1回 Twitter API 勉強会 @東京に参加しました。(Jugemより移植)

@yusukeyさんにサインをもらう目的で勉強会に参加してきました。前回もらいそびれたのでw 残念ながら、まだTwitter APIを触ってないし、利用したサービスも思いついてないんですが。。。 けど、勉強になりました。 といことで、いつものごとく、自分メモです。

1.2.1リリースしました(Jugemより移植)

lucene-gosenの最新版(1.2.1)をリリースしました。 プロジェクトページよりダウンロードが可能です。 今回の修正では、特定文字列でメモリの使用量が爆発してしまうバグへの対処となっています。 1.2.1以前のバージョンを利用している場合は最新版を利用するようにしてください。

Solr勉強会第7回に参加しました。(発表もしました)(Jugemより移植)

いつものようにSolr勉強会に参加してきました。 皆勤賞を継続中です。(暇人というはなしも。。。) 今回は話しを聞きたいですねぇといったら、いやいや、話もしてくださいと言われてしまったので、 発表もしてきました。 発表資料はブログの最後に掲載してあります。