@johtaniの日記 3rd

@johtani's blog 3rd edition

JJUG CCC 2012 Springに参加してきました。(Jugemより移植)

JJUG CCC 2012 Springに参加してきました。 昨年のFallに続き、2回目です。 概要や、タイムテーブルはこちらを御覧ください。 今回は、午後一から参加しました。 色々と迷いましたが、つぎのを聞いて来ました。

Heroku JP Meetup #4に参加しました。#herokujp(Jugemより移植)

WebSolrの話があるらしいというのを嗅ぎつけて、初めてHeroku JP Meetupに参加しました。 herokuもWebSolrも知りつつ、手を出していなかったので、いい機会でした。 (SignUpだけ、勉強会直前に済ませましたw)

Java One Tokyo 2012 に参加しました。#JavaOneJp(Jugemより移植)

JavaOne Tokyo 2012に参加してきました。 4/4-4/5の2日間開催されていたのですが、子供が体調を崩してしまい、4/5のみの参加となりました。 4/4はTwitterのTLを眺めて、羨ましがってました。

第5回 Twitter API勉強会 @渋谷 #twtr_hack(Jugemより移植)

はい。またまた、Twitter API勉強会に参加してきました。(今回から開催回数の記載がなくなった?) 今回は直前でタイムテーブルが変わってしまう波乱がありましたが、個人的には楽しめる内容でした。 Twitterの国際化や形態素解析などの話が聞けたのがすごく面白かったです。 アーキテクチャや利用されている形態素解析器の話など、また、現状の問題点なども話が聞けました。 日々、進化しているんだなぁと。 残念ながら、発表者の方が懇親会にいらっしゃらなかったので、詳しく聞けませんでしたが、挨拶だけは出来ました。 実際のテスト環境や導入方法、A/Bテストとかやってるのかなど、ブログをかきながら色々と気になることが出てきてしまいますw 頭の回転がよくないので、話を聞いてる間は質問があんまり思い浮かばなかったなぁ。。。

第0回 Twitter Hack #twtr_hack に遊びに行きました。(Jugemより移植)

森ビルに行ったことなかったので、参加してみました。 あと、最近まともにコーディングしてないので、そのへんを矯正するためにもと思って。 (まぁ、遊びに行きたかっただけなんですけどね)

第4回 Twitter API勉強会 @デジタルハリウッド #twtr_hack に参加しました。(Jugemより移植)

今週も勉強会に参加しました。 @yusukey さんが開催してるTwitter API勉強会です。 前回とは会場が異なりましたが、広くて大画面で良い会場でした。駅も近いし。(デジタルハリウッドさいこー!) 今回はLT枠のbootstrapの話が聞きたくて参加しました。(ムチャぶり駆動勉強会の現場をTLで目撃してたのでw) あと、バーチャファイター(昔、VF目当てでセガサターンを買ったなぁ、懐かしい)の話も聞きたかったので。 (ごめんなさい、Twitter APIはまだ触る機会がなさそうです。。。) 今回も途中で参加者同士を数グループ(座席が近い人)に分けて自己紹介タイムがあり素敵でした。 ちょっと残念だったのはネームプレートが今回はなかったことでしょうか。 自己紹介でツイッターID教える+聞くのがちょっと辛かったです。(やっぱり個人名刺作ったほうがいいかなぁ) 私はPCを開いていたのでTwitterのページを見せることで対応出来ましたが。 (次やるときはお手伝いするのでこえかけてください。)

Hadoopソースコードリーディング第8回に参加しました。#hadoopreading(Jugemより移植)

また、勉強会ログです、すみません。。。 直接業務とは関係ないのですが、今回はリクルートの中野さんが話しをされるというので顔を出してきました。 もちろん、内容も気になりましたというのもありますが。 実際には中野さんは2分くらいしか喋らなかったんですけどね。。。

Fluentd Meetup Japanに参加しました。(Jugemより移植)

Fluentd meetup in Japanに参加しました。いつも面白そうな話を聞いてばっかりなので、役に立つためにスタッフとしても参加してみました。 まずは、会場が綺麗でびっくりしました。しかも電源タップまで用意されていてかなり充実してました。Ustはまだ見ていないのですが、Ustも録画までされていて素晴らしい運営メンバーでした。

モーショノロジー2012#1に参加しました。(Jugemより移植)

ということで、いつものように勉強会に参加したメモです。 http://atnd.org/events/23608 日時 :2012/01/26 19:00 to 22:00 会場 :アカデミーヒルズ(六本木ヒルズ内) 49階(タワーホールA) (港区六本木6-10-1) ハッシュタグ :#mnlgy

MapR中身説明会に参加しました。(Jugemより移植)

日時:2012/01/19 18:30-20:30 場所:ベルサール三田Room2シアター Inside MapR デモ+内部のお話。 ・自己紹介 Susheel Kaushik 元YahooのHadoop系の人。製品担当責任者。 草薙さん 3台のベアボーンでMapRが動いてるデモが開始。 クラスタ管理画面の説明。 なぜか、NFSのサービスが1台落ちてますがw MapReduceなんかの実行結果なども出てくるのか。 ボリューム管理も画面から操作 レプリケーション、スナップショットも管理画面で操作、動作確認できますよ。 ミラー先はリードオンリーでボリュームの同期が可能。 スナップショットによりMapRのクラスタ内部にバックアップが保持可能。 NFSのHA構成可能。VIPの機能などもあるよ。 事前定義された各種Alertの発行も可能。 JobTrackerもMapRで拡張された表示がある。 例:MapTaskPrefetchCapacity:次のジョブのMapperを起動する準備可能な仕組み MapR内で独自に出力してる測定値をGangliaで見ることができるよ。 MapRはHadoopの置き換えとなる製品。 HDFS部分を重点的に性能アップさせるために主に置き換えた製品。 MapReduce部分にも手を入れてる。例:Direct Shuffle(HTTPじゃなくて、RPCでShuffleの通信を行ってるとか)ボリューム活用してるらしい。 分散NameNode、JavaGCの影響の排除、ビルトイン圧縮によるI/O削減など。 Mapperの出力をHDFSに置くと、メタデータ更新が多くなり、NameNodeがパンクする。(Apache Hadoop) Q:中間データもレプリケーションすると性能劣化しないんですか? A:中間データボリュームは特定ノードしか保持されない(=レプリカ数は1) ストレージプール(SP) ソフトウェアでストライピング。RAIDしなくてよい。 コンテナ(データ、ネームがある。) データブロックをグループ化したもの ※ストレージプールの数と同数のボリュームを作成すべき。 CLDBがコンテナを管理してる。 Q:トランザクション失敗するのは? A:どこかにかければトランザクションは成功。 コンテナが復旧してきたら、データがコピーされる。復旧されない場合は別途コンテナを割り当てることもある? Q:ノードが追加される場合の挙動は? A:。。。聞き逃した。 トポロジ ノードを階層的にグループ化してデータ配置をコントロール。 Q:トポロジ設定などの権限設定は? A:Permission画面があるよ。 Q:ボリューム単位のファイルシステムアクセスに関する設定は? A:???聞き逃した? ボリューム いろいろな設定が可能。 スナップショット Copy-on-Write方式による差分格納 ミラー ソースからミラーにコピー。手動orスケジュールによる起動が必要。 ミラー側はRead-only ※誤解を招きやすいので注意 読み出しが多い場合にミラーを利用することで対応が可能。 ビルトイン圧縮 LZZFの一種を高速化してる ネットワークIOにも効いてくる JobTracker HA 最大3ノードで構成可能。アクティブスタンバイ NFS HA すべてのノードで稼働可能。 NFS機能 NFSv3相当 クライアント側にNFSサービスをインストールするという構成も可能に。 Q:NFSマウントして作成したファイルもブロックサイズ分のファイルサイズになるの? A:8Kバイト単位で内部的にはファイルを作成してる。8KB単位で圧縮して管理してるので、小さいサイズでもいい。(アロケーションサイズが8KB) Q:8KBにしてしまったために大きなブロックサイズの利点がなくなるのでは? A:オーバーヘッド内容な構成になってる。シーケンシャルに8KBに並んでるから? Q:NFSによるとMapReduceによるアクセスの排他制御とかは? A:独自で頑張らないといけない。Job起動時に効果的にスナップショット取ったりはしてない。 リバランスもバックグラウンドで実行可能 Apache Hadoopが備えるJava APIは100%語幹 Q:なんで、HDFSをがりっと書き換えたの? A:運用性も、ノード管理も。。。全部です。 なくなっても良いデータなら、別にHadoopでもいいですよね。 けど、基幹システムとかだと、信頼性が必要だし、運用の効率も必要だしいろいろ必要。 Q:実績が必要なんですが、どのような試験を行われているのかという情報が公開される?EMCでやられてるテストのプロセスを適用しているなどの裏付けは公開されないの? A:内部で6ヶ月利用してデータロスはない。 品質については強化していく。 Q:MapRとしてHadoopコミュニティへの還元していく内容ってどんなもの? A:Apacheコミュニティに対して1000台のクラスタを提供してスケーラビリティテストとかやってくださいとしている。 Q:このクラスタを実際にはどう使ってもらうの? A:品質アップするためにテスト環境として使ってもらう? Q:ApacheのAPIの互換性を死守するのが必ずしもいいとは思えない場合にどうするの?MapR独自APIとかは出さないの? A:ApacheのAPIに準拠するのは非常に重要。他のHadoop上のアプリが動作しなくなるから。 Q:MapRを容量の大きなファイルシステムとしてだけ利用するなんて想定はありますか?MapReduceを利用しないパターンです。 A:いや、それはw Q:MapRはエンタープライズがターゲットだけど、Amazonはパブリッククラウドが対象。マルチテナントなパブリックサービスでMapRを利用するとかは? A:。。。 Q:ジョブ管理にも手を入れてるの? A:あんまり手を入れてません。 Q:EMCのストレージ製品でMapRのMapReduceない版みたいの出てない? A:中身はMapRじゃないですよ。 想定とは異なり、日本の草薙さんが主に説明されたのですごくわかりやすかったです。 しかもかなり内部まで理解されている方だったので突っ込んだ質問にもきちんと回答されてるので更に理解が進みました。 今回利用された資料は現時点では公開の予定はないという話でした。 ただ、かなりまとまってる資料なので、後悔して欲しいものです。 普通にviとかしてるだけなのに、すごいと思うデモってなんか新鮮でした。 MapR自体を触る機会はまだまだないと思うのですが、MapRとしてHadoopに対する思想が垣間見えたのが面白かったです。 すごいメンツが質問を投げまくるのでいろいろな側面で話が聞けました。 ただ、やっぱり英語のヒアリングがダメダメだというのが露呈しました。。。今年は少し頑張らないと、先が思いやられますね。。。 あと、疑問と言うか、感想ですが、MapR自体が結構多機能で、その機能をどう扱うか、どのようなノード構成やボリューム構成を取るかといった設計が結構大事でしかも大変なんじゃないかなぁという印象を受けました。 特にマルチテナントで利用する場合などは、想定されないミラーの利用などでデータ容量が足りなくなったりといった側面も出てくるのかなぁと。