目次
AWS Summitに来ていたのですが、TLでは、Cloudera Searchが賑わってました。 ということで、軽くどんなものか読んだり調べたりしたメモを残しとこうかと。 英語力はあやしいので、おかしいとこがあったらツッコミを。
Cloudera Searchとは?
CDH4.3に対応したCDHユーザ向けの検索システム(beta版)なのかな? CDHに統合された検索フレームワークなのかな?
基本はLucene/Solr 4.3でHadoopのペタバイトデータを検索することができるようになるみたいです。
どんな仕組み?
次のものを利用しているようです。(GithubのREADMEから。)
使ってるもの
- Apache Solr(4.3.0+α?)
- Apache Lucene(Solrつかってるからね)
- Apache SolrCloud(うーん、Solrに含まれるのに別に出してるのなんで?)
- Apache Flume
- Apache Hadoop MapReduce & HDFS
- Apache Tika
- SolrCellとしてSolrにも組み込まれてる、いろんな文書(WordとかHTMLなどなど)からメタデータと本文データとかを取り出せるライブラリラッパー。実際にはさらにpdfboxとかを使って各文書からのデータを取り出してる。
何ができるの?
HBaseやHDFSの用にZookeeperを使ってインデックスのシャーディングや高可用性ができる。(SolrCloudがZookeeperを使ってるからね。) MapReduceのジョブの出力から自動的にSolrのインデックスにデータをマージできるらしい。 Cloudera Managerを使って、デプロイ、設定モニタリングなどが可能。
Flumeのフィードをつかって、ストリーミングしてインデックスを作れる。FluemeがデータをSolrに流しこむのかな? 将来的にはHiveやHBaseのテーブルをインデックスすることも可能になるらしい。Impalaクエリの結果もフィードできるのか?
Apache Blurってキーワードも出てきた。HDFSのデータからLuceneのインデックス作るのかな? NGDataのチームがSolr/HBaseの統合とかしてるみたい。
参考URL
comments powered by Disqus
See Also by Hugo
- Cloudera Searchメモ(妄想版)
- 新しいsolr.xmlとCore探索ロジック
- Cloudera Searchのモジュールたち
- MorphlinesのloadSolrをちょっとだけ調べてみた
- 第11回Solr勉強会を主催しました。#SolrJP
Related by prelims-cli
FEATURED TAGS
aws
azure search
berlin buzzwords
bot
cloudera
cloudera search
conference
curator
dev container
diyキーボード
elastic
elasticsearch
fluentd
hadoop
hugo
java
kibana
kuromoji
logstash
lucene
lucene-gosen
manifoldcf
marvel
misc
morphlines
music
nlp100
octopress
opensearch
paper
plugin
python
riak
rust
rust-the-book
search
shield
solr
visual studio code
watcher
wikipedia
windows
workplace search
yokozuna
zipkin
オライリー
カンファレンス
ブログ
備忘録
勉強会
振り返り
本
検索
読書
転職