「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(2章~4章)(Jugemより移植)

Posted by johtani on Saturday, April 14, 2012

目次

先日の続きです。「Apache Solr入門」の2章から4章の説明について、Solr3.6.0で動作させる時の変更点を以下に書いていきます。 なお、前回も説明しましたが、3.6.0からKuromojiという形態素解析器がSolrに同梱されるようになりました。 これから説明する2章の変更点の手順ですが、Kuromojiとlucene-gosenそれぞれの利用方法について説明します。 添付のschema.xmlについては、基本的にKuromojiを利用する形に変更してあります。 それに加えて、lucene-gosen用のフィールドを別途追加で定義しました。 これらのフィールド名については、次の表の用になります。 適宜、書籍のフィールド名と置き換えながら読み進めたり、試したりしてください。

Kuromojiフィールド lucene-gosenフィールド
title title_gosen
author auther_gosen
summary summary_gosen
intended_reader intended_reader_gosen
from_author from_author_gosen
toc toc_gosen

2章

2.1.3 schema.xmlのバージョン(27ページ)

Solr3.xではschema.xmlのファイルの最新バージョンは1.5になっています。

2.2.3 代表的なトークナイザ(35ページ)

solrbook.analysis.SenTokenizerFactoryは必要ありません。 Solr 3.6.0からはKuromojiと呼ばれる形態素解析器が用意されています。 solr.JapaneseTokenizerFactoryがそれに該当します。 これとは別に、lucene-gosenを利用する場合、Solr向けのトークナイザが用意されています。 solr.GosenTokenizerFactoryがそれに該当します。

2.2.4 代表的なトークンフィルタ(37ページ)

以下の2つについてはKuromojiが同等のトークンフィルタを提供しています。 また、lucene-gosenを利用する場合は、lucene-gosenに同等のトークンフィルタが存在します。

  • solrbook.analysis.KatakanaStemFilterFactory
  • solrbook.analysis.POSFilterFactory

次のものがSolr 3.6.0に用意されているので、こちらを利用します。

  • solr.JapaneseKatakanaStemFilterFactory
  • solr.JapanesePartOfSpeechStopFilterFactory

それぞれ、次のものがlucene-gosenにあるので、こちらを利用します。

  • solr.GosenKatakanaStemFilterFactory
  • solr.GosenPartOfSpeechStopFilterFactory

2章向けのschema.xmlはこちらです。その他のtxtファイルについては、特に変更はありません。

3,4章は特に変更はありません。Solrの起動の仕方にだけ注意してください。(-Dsen.homeは必要ありません)

以上が4章までの修正点になります。

昨日に引き続き、眠い目をこすりながら修正したので、おかしいかも。 動かない、意味がわからないなどあれば、コメントorツイートいただければと思います。

2012/06/14提供しているschema.xmlに関して修正を加えました。こちらの記事で説明しているautoGeneratePhraseQueriesの値をtext_gosen、text_cjkのフィールドに対してtrueを設定する記述を追記しました。


comments powered by Disqus