Cloudera Searchってのが出たらしい（とりあえず、雑感？）

Cloudera Searchとは？

CDH4.3に対応したCDHユーザ向けの検索システム（beta版）なのかな？ CDHに統合された検索フレームワークなのかな？

基本はLucene/Solr 4.3でHadoopのペタバイトデータを検索することができるようになるみたいです。

どんな仕組み？

次のものを利用しているようです。（GithubのREADMEから。）

使ってるもの

Apache Solr(4.3.0＋α？)
- Apache Lucene（Solrつかってるからね）
- Apache SolrCloud（うーん、Solrに含まれるのに別に出してるのなんで？）
Apache Flume
Apache Hadoop MapReduce & HDFS
Apache Tika
- SolrCellとしてSolrにも組み込まれてる、いろんな文書（WordとかHTMLなどなど）からメタデータと本文データとかを取り出せるライブラリラッパー。実際にはさらにpdfboxとかを使って各文書からのデータを取り出してる。

何ができるの？

HBaseやHDFSの用にZookeeperを使ってインデックスのシャーディングや高可用性ができる。（SolrCloudがZookeeperを使ってるからね。） MapReduceのジョブの出力から自動的にSolrのインデックスにデータをマージできるらしい。 Cloudera Managerを使って、デプロイ、設定モニタリングなどが可能。

Flumeのフィードをつかって、ストリーミングしてインデックスを作れる。FluemeがデータをSolrに流しこむのかな？将来的にはHiveやHBaseのテーブルをインデックスすることも可能になるらしい。Impalaクエリの結果もフィードできるのか？

Apache Blurってキーワードも出てきた。HDFSのデータからLuceneのインデックス作るのかな？ NGDataのチームがSolr/HBaseの統合とかしてるみたい。

Cloudera Searchってのが出たらしい（とりあえず、雑感？）

目次

Cloudera Searchとは？

どんな仕組み？

使ってるもの

何ができるの？

参考URL

See Also by Hugo

Related by prelims-cli

FEATURED TAGS

ARCHIVE BY YEAR