目次
AWS Summitに来ていたのですが、TLでは、Cloudera Searchが賑わってました。 ということで、軽くどんなものか読んだり調べたりしたメモを残しとこうかと。 英語力はあやしいので、おかしいとこがあったらツッコミを。
Cloudera Searchとは?
CDH4.3に対応したCDHユーザ向けの検索システム(beta版)なのかな? CDHに統合された検索フレームワークなのかな?
基本はLucene/Solr 4.3でHadoopのペタバイトデータを検索することができるようになるみたいです。
どんな仕組み?
次のものを利用しているようです。(GithubのREADMEから。)
使ってるもの
- Apache Solr(4.3.0+α?)
- Apache Lucene(Solrつかってるからね)
- Apache SolrCloud(うーん、Solrに含まれるのに別に出してるのなんで?)
- Apache Flume
- Apache Hadoop MapReduce & HDFS
- Apache Tika
- SolrCellとしてSolrにも組み込まれてる、いろんな文書(WordとかHTMLなどなど)からメタデータと本文データとかを取り出せるライブラリラッパー。実際にはさらにpdfboxとかを使って各文書からのデータを取り出してる。
何ができるの?
HBaseやHDFSの用にZookeeperを使ってインデックスのシャーディングや高可用性ができる。(SolrCloudがZookeeperを使ってるからね。) MapReduceのジョブの出力から自動的にSolrのインデックスにデータをマージできるらしい。 Cloudera Managerを使って、デプロイ、設定モニタリングなどが可能。
Flumeのフィードをつかって、ストリーミングしてインデックスを作れる。FluemeがデータをSolrに流しこむのかな? 将来的にはHiveやHBaseのテーブルをインデックスすることも可能になるらしい。Impalaクエリの結果もフィードできるのか?
Apache Blurってキーワードも出てきた。HDFSのデータからLuceneのインデックス作るのかな? NGDataのチームがSolr/HBaseの統合とかしてるみたい。
参考URL
comments powered by Disqus
See Also by Hugo
- Cloudera Searchメモ(妄想版)
- 新しいsolr.xmlとCore探索ロジック
- Cloudera Searchのモジュールたち
- MorphlinesのloadSolrをちょっとだけ調べてみた
- 第11回Solr勉強会を主催しました。#SolrJP