@johtaniの日記 2nd

@johtani ‘s blog 2nd edition

第12回Solr勉強会を主催しました。#SolrJP

不定期開催ですが第12回Solr勉強会を主催しました。

今回は、前回ほどの過熱ぶりでは無かったですが、70人ほどの参加者の方がいらっしゃったかと。 ありがとうございます!

今回は聞きたかったYokozunaの話をしてもらいました。あと、リベンジManifoldCF。 一部、追記しました。Bashoさんからツッコミがあったので。あと、4.5.1の話とか。

ManifoldCFのとSolrの組み合わせ(仮)株式会社 ロンウイット 大須賀 稔さん

前回お休みだったのでリベンジですw。

英語だ。。。やっぱ英語がいいですか、スライド。。。
ManifoldCFの概要から。 最新版は1.3です。色々サポートしてるなぁ。

デモもありました。(やっぱりちゃんと動かないので、鬼門みたいですが)

デモ

ManifoldCFのGUIで操作しながら。 いまいちちゃんと動かなかった。。。

QA

  • Q:Zipはうまく動かなかった
  • A:Solr側で処理してくれてる。
  • Q:Notes対応するの?
  • A:いまのところない。
  • Q:ExcelとかPDFはTika?
  • A:Tika次第です。
  • Q:認証周りどこから取ってくるの?
  • A:クローラ側にはなくて、SharePointとかの権限をみてる。
  • Q:Web系の認証は?
  • A:まだないのでは。。。(調査します)

あー、デモの続き忘れてましたね。。。

Solrを組み込んだRiak 2.0の全文検索機能 -Yokozuna- Bashoジャパン株式会社 鈴木 一弘さん

Riak色々使われてるよ!アングリーバードとか、Y!とか。 Riakで提供されている1機能としてのYokozuna。単独製品ではないですよと。

Riakの説明。スケールするよ、いつでもRead/Writeできるよ、運用にフォーカスしてるよと。 マスターレスですよ。 Riak2.0のリリースは2013年末。Yokozunaもかな?

ダイナミックフィールド使ってるので、Yokozunaをonにするだけで簡単に使えるよ。

RiakがSolrのプロセスを管理。

インデックスの不整合の検知とかってどうやってるのかなぁ? インデックス比較用のハッシュツリーをノード間でコピーしつつ検査してる。(Active Anti-Entropy)

(デモには魔物がいるようだ。。。)

QA

  • Q:JSONの属性を元にしてフィールドにインデックス可能か?
  • A:可能です。IIJさんの発表で話が出ます。
  • Q:ProtocolBufferでSolrにアクセス可能?
  • A:そのうちできそうです。リリース時にはできるようになっています。
  • Q:コアのスワップは?スキーマの変更は?
  • A:事前に設定するのは可能。
  • Q:RiakのデータとSolrでデータがずれるってのはあるの?
  • A:可能性はありますが、極力ずれAAEで修復。
  • Q:復旧中のインデックスにアクセスが行かないようにする仕組みなどはある?
  • A:今はないです。

Yokozuna ベンチマークしました 株式会社インターネットイニシアティブ 曽我部 崇さん、田中 義久さん

いいとこ取りで楽だなぁと。いうことで、試してみてます。 デモが動いてる。

extractorでXMLやJSONをパースできる。 ベンチマーク結果。

Riak Meetup Tokyo #2の時のQAも入ってるので助かります。素晴らしい。

QA

  • Q:スナップショットは両方取れるの?
  • A:Riakは取れますが、インデックスは今は無理です。
  • フォロー:0.8はYokozunaにボトルネックがあったので、0.9以降だともっと性能が出るはずですとのこと。また次回とかに発表してもらうのもありですかねぇ。

Solr 4.5の新機能など @johtani

発表資料のPDFです。

ツイート見てて誤解を招いたなと思ったのですが、7u40は4.5限定ではなく、すべてのバージョンと考えてください。 チケットを見ると分かりますが、影響バージョンの記載はありません。

※あ、4.5のChangesを紹介しましたが、4.5.1が出るかも。このへんが困ってるらしいです。

LT

@haruyama さん

資料:http://haruyama.github.io/solr_20131009/#(1))

記号が捨てられるTokenizer困るので、捨てないのを作ってみました。

Kuromojiの困ったこと。全角数字を分解しちゃう。→MappingCharFilterFactoryで全角から半角にしましょう。 lucene-gosenデフォで半角記号が未知語になってしまい、半角カナと混ざるので、記号を全角にしましょう。

Comments