@johtaniの日記 2nd

@johtani ‘s blog 2nd edition

Cloudera Searchってのが出たらしい(とりあえず、雑感?)

AWS Summitに来ていたのですが、TLでは、Cloudera Searchが賑わってました。 ということで、軽くどんなものか読んだり調べたりしたメモを残しとこうかと。 英語力はあやしいので、おかしいとこがあったらツッコミを。

Cloudera Searchとは?

CDH4.3に対応したCDHユーザ向けの検索システム(beta版)なのかな? CDHに統合された検索フレームワークなのかな?

基本はLucene/Solr 4.3でHadoopのペタバイトデータを検索することができるようになるみたいです。

どんな仕組み?

次のものを利用しているようです。(GithubのREADMEから。)

使ってるもの

  • Apache Solr(4.3.0+α?)
    • Apache Lucene(Solrつかってるからね)
    • Apache SolrCloud(うーん、Solrに含まれるのに別に出してるのなんで?)
  • Apache Flume
  • Apache Hadoop MapReduce & HDFS
  • Apache Tika
    • SolrCellとしてSolrにも組み込まれてる、いろんな文書(WordとかHTMLなどなど)からメタデータと本文データとかを取り出せるライブラリラッパー。実際にはさらにpdfboxとかを使って各文書からのデータを取り出してる。

何ができるの?

HBaseやHDFSの用にZookeeperを使ってインデックスのシャーディングや高可用性ができる。(SolrCloudがZookeeperを使ってるからね。) MapReduceのジョブの出力から自動的にSolrのインデックスにデータをマージできるらしい。 Cloudera Managerを使って、デプロイ、設定モニタリングなどが可能。

Flumeのフィードをつかって、ストリーミングしてインデックスを作れる。FluemeがデータをSolrに流しこむのかな? 将来的にはHiveやHBaseのテーブルをインデックスすることも可能になるらしい。Impalaクエリの結果もフィードできるのか?

Apache Blurってキーワードも出てきた。HDFSのデータからLuceneのインデックス作るのかな? NGDataのチームがSolr/HBaseの統合とかしてるみたい。

参考URL

Comments