目次
またまた参加しました。いまだ皆勤賞です。
感想などはあとで。とりあえず、メモとったので第一弾です。
ということで、感想です。 まずは、参加人数。 今回は今までで一番、ATND登録した人が多かったんじゃないかなぁと。 埋まるのも早かったですし。やっとSolrというキーワードが多くの方に触れられるようになってきたんですかねぇ。
mixiの事例はやはり、SSDを使った11億文書のインデックスが圧巻です。 実際にマイニングに利用していて、ネガポジ分析なども行われているようで楽しそう。 TLにもありましたが、「ヤバイ」はネガ?ポジ?など、そのへんの分析方法をもう少し詳しく聞いてみたい感じもしました。 あとは、Luceneソースコードリーディングの開催が楽しみです!(候補日知らせないと。。。)
Lucene Revolution 2012の参加レポートは、自己紹介がおもしろかったですw ずっと検索をやらてているのもあり、色々と理論ではなく、実践的なノウハウを持っていそうで、つぎはそのあたりの話を聞いてみるのも面白そうです(発表してくれないかなーw) 残念ながら、私はまだスライドを見ていないので、事例を中心にピックアップして見てみようかなぁと(時間がトレない。。。)
最後は阿部さんの4.0の紹介です。タイムリーに、前日に4.0-ALPHAがリリースされたので、 資料がすごく参考になりそうです。 SolrCloudについても詳しく書かれてたし。(ちゃんと動くのかなぁ?)
最後は懇親会です。最近知り合った方から、発表者、昔からの勉強会の参加者といろいろな方と今回も話ができて楽しかったです。 TL上で知り合った方にもお会いできたし。 次回もしゃべってもらえそうな人を捕まえつつあるので、また企画してもらうようにつついてみようかな。
※そういえば、毎度のことながら4.0ベースで、書籍は出さないのかって言われましたw
※ちなみに、4.0-ALPHAが出たので、lucene-gosenも4xブランチの更新作業をしています。 終わったらまたブログに書くと思います。
第8回Solr勉強会
場所:VOYAGE GROUP 会議室
日時:7/4(水) 19:00 ~
1. @haruyamaさん
mixi での Solr の利用
・mixiの全文検索
2011年以前:Hyper Etraier、Tokyo Dystopia、Senna
2011年以降:Solrを利用して新規案件の検索システムの構築、入れ替えを行なっている。
・Anuenueの論理構成など。
・物理構成
1マスター、2スレーブ
インデックスが小さい、QPSが100以下
インデックスサイズが大きいものは今後構築予定
・今後やりたいこと
・ログ分析
・パーソナライズ
・外部ストレージ参照のカスタム関数
・外部ストレージをファンクションカスタム関数クエリ
FunctionQueryを活用したい。
・上記のデモ(検討中のもの?)
現在はjar内部のファイルを読んでるよと。
速度的な面がどうなるかがきになるところ。
・テキストマイニング
mixiボイス
haruyamaさん入社前:ダンプして解析してた
haruyamaさん入社後:Solrに載せちゃえば
600GのSSD
約11億文書
約450GB
利用してるもの:Solr 4.0(2012/01)
lucene-gosen 1.2.1
自作フィルタ
haruyama/solr-filter - GitHub
・利用統計の説明。
女性が多い。
「AKB」だと20代前半が多い。男性はおっさんも頑張ってる。
・mergeindex機能を利用して、過去データとマージしてる。
1日分だけ集計したいこともあるかもしれないから。
updateじゃなくて、mergeindexなのは、ソッチのほうが早かったから。
・拡張してる分析
・ポジネガ分析
形容詞>絵文字>顔文字でスコアが効く
機械学習して辞書を調整してる
・Luceneソースコードリーディングまたやりますよ!
2. 楽天株式会社 大須賀 稔さん
Lucene Revolution 2012 in Boston参加レポート(仮)
・まずは自己紹介。
infoseekに転職→楽天→Ask.com→楽天(そして英語)
・Lucene Revolutionってなに?
・トレーニング
Scaling Search with Big Data & Solr
Hadoopの紹介
SolrとHadoopのMapReduceを利用したインデキシングのハンズオン
Solrのスケーリング(Sharding、Replication)、マルチテナント
※http://www.lucidimagination.com/services/training/big-data-training-scaling-solr
日本ではやってない、残念。
・カンファレンス
スライドとかはlucidimaginationのサイトで見れるよと。
http://www.lucidimagination.com/devzone/events/conferences/lucene-revolution-2012
・Lucidworks Big Dataの紹介
Hadoopとかいろいろ組み合わせて使えるよと
・Microsoftの人がAzureでSolrの紹介
IEとかWindows8の話ばっかり。
・Kuromojiの紹介
やはり、マイノリティ。
内容は日本語勉強会w
中国語とかは対応するの?日本語しか知らないです。。。
・ErickさんのSolrCloudの話
4.0は2012年にリリースする予定
スコアリングをプラガブルに。
管理系画面がリッチだよと。
・一番重要だなぁと思ったのは。。。
「英語」!(会社的な感想ではありません。。。)
Q:これはみとけ的なスライドは?
A:Hadoop上でインデキシングして、ビットトレントとかで連携してるという例が面白かった。
Q:FASTとかと比べてSolrってどーなの?
A:ESPは洗練されてる。クローラーとか、ベイシスのトークナイザーを内包してるとか。
Solrは言語処理系が弱かったとかあるけど、そろってきてるのでは。
4.0は互角になるんじゃないかなぁ。
ESPがWindowsオンリーになるので、LinuxユーザがSolrに行きつつある。
3. 株式会社 ロンウイット 阿部さん
Solr 4.0の紹介
・Solr 4.0の主な機能の紹介
3.xは3.6が最後4.0-ALPHAが7/3に出た
・プラガブルなスコアリング
BM25、Language Models、Divergence from Randomness、Information-based Models
関口さんがスライド作ってる
・FST対応
Finite State Automata/Transducer
オートマトン理論を活用したもの。
TokenStreamはFSAで実装
SynonymFilterがFSTになると、オフセットが変わってくるらしいと。
・Codecプラグイン
Luceneレベルのお話。
ドキュメントをファイルに保存するときの形式をプラガブルに変更可能。
SimpleTextなどもあるらしい。テストに利用できそう。
APIレベルで、マイグレーションの必要があるかも。
・NRT
Near Real Time Search
softCommitのお話
Realtime-get:IDを入れたらGETできるよと。
KVSとしても活用できるぞ~と。
・PivotFacet
Facetが階層的(?)な感じで取れる
・JOIN、pseudo-join
ローカルパラメータでできるよーと。
・SolrCloud
インデックスの分散配置をやってくれる(3.6まではやってくれない)
shardがダウンしたらフェイルオーバーしてくれそう
Master/Slave環境
リアルタイムインデクシングとリアルタイム検索とか
・ZooKeeperIntegration実装
リーダー選出、コンフィグの管理などなど
・ManifoldCFの近況
5月にトップレベルに昇格!
http://manifoldcf.apache.org/ja_JP/index.html
0.6は7月に出そう。日本語にもなってる。すげー
Alfresco Connector、ElasticSearch Connectorなども
Solr Plugin for Enterprise Searchとか
comments powered by Disqus
See Also by Hugo
- lucene-gosenのLucene/Solr4.0-ALPHA対応(Jugemより移植)
- Elasticsearch勉強会 in 名古屋を開催しました。#elasticsearch #elasticsearchjp
- 第一回 JetBrainsユーザーグループ #jbugj に参加してきました(Jugemより移植)
- Lucene/Solr 4.0.0リリース&lucene-gosenの4.0対応(Jugemより移植)
- Twitter 勉強会 #twtr_hack に参加しました。(Jugemより移植)