Hadoopソースコードリーディング第7回に参加しました。(Jugemより移植)

Posted by johtani on Tuesday, November 29, 2011

目次

Hadoopソースコードリーディング第7回に参加しました。 いつものごとく、自分用のメモをとっていたので。 第6回(2010/12)には参加してたのですが、あれからそういえば、話が無いなぁと思っていたところに 再開するという話がTwitterに流れてきたので、即申し込みしました。 思い返せば、Hadoopに興味をもって少し触っているところで参加したのだったなぁと感慨深い思いを思い出しました。

今回は場所を変えて豊洲のNTTデータさんで開催されました。

日時:2011/11/28(月)19:00~22:00 場所:豊洲センタービルアネックス NTTデータ


◎アジェンダ+導入(NTTデータ 濱野さん)
 ちょっと間が空きましたが隔月で行う予定。
 2012/01/12くらいに次回を予定。ネタ募集中。

◎Hadoop World NYC 2011 参加レポート
 - NTTデータ 下垣 徹さん (Hadoop徹底入門著者の一人です!)
  ・イベント概要:2011/11/08~09にNYで開催
   スポンサー企業の数がどんどん大きくなってる。
  ・会場の様子
   最初のキーノートは立ち見が出るほど。
   個別に5並列でセッションが開催されてましたと。
  ・キーノート紹介
   1.Hadoop World(Michael Olson)
    アンケートからの概観
    HadoopはNext Generation DataCenterだそうで。
   2.JP Morgan(Larry Feinsmith)
    コスト削減+収入増加のためにHadoopつかうぞと。
    BigData分析の戦略
    ユースケース1:ETL(Extract/Transfer/Load)ツールとして
    ユースケース2:共通データ基盤
     検索頻度が低いデータの低コストストレージなどなど。
    ユースケース3:データマイニング
     異常値検出とか。
   3.eBay(E. Williams)
    Cassini:オークション情報の検索エンジン
     柔軟な検索+協力なランキング機能
    Hadoopで転置インデックス作成=Luceneは使ってるってことかな?
    HBaseも利用。データはHBaseに登録してる。
   4.Informatica(James Markarian)
    データとプロセス
    Hadoopが賑わうからRDBMSも活気づく
    Hadoopはプラットフォームになるよと
   5.Cloudera(Doug Cutting)
    Hadoopの背景と今後について
    BigDataを分散処理するためのカーネルになりつつあるよと。
    Apacheプロジェクトの良さ
     類似するプロジェクトも共存させてるよと。
    Hadoopの今とこれから(0.20(今)、0.23(将来))
    0.23はHDFSの性能面改善、スケーラビリティの強化、HA
       MapReduce2.0
    CDH4のはなし。
    Hadoopコミュニティはまだまだ若い
  ・HadoopWorldの傾向
   HBaseの利用増加
    利用理由?
     小さいレコードにも強い。
     ランダムアクセス
   大手ベンダ参加
    Oracleすげー。Hadoopの周りを固めていくぞと。
    Hadoopの周りを各社がどう固めていくかというはなし。
   事例が多い
    WibiData:HBaseの利用事例。Fonedoctor
    Walt Disney:Big Dataに対する機会損失があるから、導入するよと。
          テーマパークの交通流解析にも使うぞ!
  イケメンによる来年(2012年)のHadoop Worldの動向!?
   参加者3000人!
   ラスベガスで開催?
   スポンサー拡大で食事が美味しく!?
   全方位戦略vs.特化型
   BIツールベンダの巻き込み
   利用事例のアピール合戦
   HBaseの利用事例が続々!(Salesforce.comあたりがセッション持つんじゃね?)
   Hadoop対抗アプリケーション、業界特化型キラーアプリケーションがますます増える?
   Mahout事例の増加
   データマイニング+Web勉強会
 - NTTデータ 政谷さんのHadoopNYでの発表のダイジェスト
  まずは印象。深く使っている人は去年より減っている。バズワードになってるからかな?
  今後もHadoopコミュニティは健全なコミュニティになりそう。(いろんな所が出てきたけど、大丈夫そうだなぁ)
  ・発表スライドのダイジェスト版
   日本でのHadoopの盛り上がりの話。
   Hadoopと他との住み分けの話。
   Sqoopのお話。PostgreSQLに向けたインテグレーションの話。これはPostしてコミット待ち。
   Low-Latency Serving Systemへの受け渡し(前処理はHadoopでGPGPU使ってデータをクラスタリングして処理速度をあげる)
   FujitsuのETERNUSにHDFS APIが用意されたという話。
   MapRの話に似ているよと。小さめのクラスタの場合に有効?セッションの後に少し話題になった。
   扇子を配りましたよと。

 ※ビールが配られ始めた!(ビールじゃないという声もチラホラw)
◎『Hadoop Troubleshooting 101』 セッションレポート
  - Cloudera 嶋内さん (@shiumachi)
 Hadoopを壊す7つの方法
 Hadoop設定したりしたことある人?=結構いた。さすがソースコードリーディング
 Clouderaでは木曜日に重要なミーティング(ボードゲームするかFPSするか)というのがあるらしい。
 チケット分析
  設定ミス?
   HadoopやOSの設定ファイルの変更を必要とするあらゆるチケットの事
   35%が該当
  問題の原因別のグラフ
   1番は設定ミス
   2番はバグ(これはベータ版リリースからチケット管理してるから)
  メモリの管理ミス
   Task Out Of Memory Error
    io.sort.mb < mapred.child.java.optsとなるように設定すること
    io.sort.mb = mapバッファのサイズ
    mapperとreducerを減らす。
     mapper=ノード上のコア数
     これは机にはっとけ!
     Total RAM = (Mappers + Reducers) * Child Task Heap + DN heap + 3GB + RS heap + ?
   JobTracker Out Of Memory Error
    JTのメモリ使用量の合計 > 割り当てRAM
    原因は?
     タスクが小さすぎ
     jobヒストリが多すぎ
    解決は?
     maximumを減らしなさい?
   Unable to Create New Native Thread
    どういう意味?
     プロセスが起動中にもかかわらずDNが障害ノードとして表示されている。
    原因は?
     nprocのデフォルト値が低すぎる
    対応は?
     /etc/seurity/limits.confの値を考えろ
   Too Many Fetch-Failures
    元スライドの発表者はこれが大好きらしい
    どういう意味?
     Reducerのfetch操作がmapperの出力の取得に失敗
     ブラックリスト入りのTTで発生するらしい
    原因は?
     DNSの問題
    対応は?
     mapred.reduce.slowstart.completed.maps = 0.80
      reducerの開始を遅らせることで対応
     tasktracker.http.threads = 80
     Jetty 6.1.26は使うな!CDH3u2に上げましょう。
   Not Able to Place Enough Replicas
   。。。きっとどっかにスライドあるからメモはこのへんでいいか。。。

◎Hadoop World NYC 2011 参加レポート
 - Acroquest Technology 阪本 雄一郎さん (@frutescens) 落合 雄介さん (@taro_x)
 ・RとHadoopの融合(Revolution AnalyticsのDavid Champagneさん)
  R言語の紹介
  Rとの接続点(rmr、rhdfs、?)
  R言語の利点がHadoopで使えるから、記述が少なくて済むよと。
  統計処理がわからなくてもRが使えると分析ができるよ。(そう言われても、その分析で正しいのかとかは結局統計とかをある程度理解してないと厳しいんじゃないか?)

 ・Hadoopを使った衛星画像解析
  スケールとかしたいからHadoopにしたけど、ジョブ起動遅いし、科学計算ライブラリが不十分

 ・Hadoopをクラウド上に展開(vmware)
  Hadoopだけじゃなく、NoSQLとかもスケールしてから使いたいよねぇ。
  ということで、vmwareの色々なものを使ってHadoopと他をうまく構築しますよ事例紹介。
  マルチテナントのHadoopの話とかもありますよねと。

◎最後はHadoopには関係ないのが多かったけどおみやげ争奪戦。
 なぜか、MongoDBのシールをもらいました。

ということで、HadoopWorld2011の総括+各スライドの紹介でした。 これまでのHadoopWorldの傾向などから、参加者などのトレンドがどうなっているかなどの話が聞けたのが面白かったです。 ClouderaのスライドはHadoopのトラブルシューティングとして必見になりそうな感じでした。 内容が濃くて、それほど触っていない私にはわからないところもチラホラ。(日本語資料の公開されるかなぁ?) 案の定、ビール(発泡酒)を飲んだので、途中から一部が飲み会状態になってたし、ピザ食べてたので、私のメモも途中から適当になってしまいました。 あとは、とある件についていろんなかたからの知見を入手できたのが良かったですね。 他にもLilyプロジェクト(Solrが利用されているOSSの話)の話もあったようなのですが(HPの方が教えてくれました)、今回の参加レポートでは含まれてなかったです。(話聞きたかったなぁ。余力があれば、スライド読むかなぁ。誰か発表してくれないかなぁ) 今日もまた、Twitterで絡んでいた方たち数人と面識が得られました。 今後は定期開催の流れになるようなので、これからもHadoopにしがみついていくためにも参加するようにがんばりますよと。

会場提供のNTTデータのみなさん、発表者の皆さんお疲れ様でした。次回も期待してます!!

2011/12/01追記 Togetterのまとめ


comments powered by Disqus

See Also by Hugo


Related by prelims-cli