目次
先日の続きです。「Apache Solr入門」の2章から4章の説明について、Solr3.6.0で動作させる時の変更点を以下に書いていきます。 なお、前回も説明しましたが、3.6.0からKuromojiという形態素解析器がSolrに同梱されるようになりました。 これから説明する2章の変更点の手順ですが、Kuromojiとlucene-gosenそれぞれの利用方法について説明します。 添付のschema.xmlについては、基本的にKuromojiを利用する形に変更してあります。 それに加えて、lucene-gosen用のフィールドを別途追加で定義しました。 これらのフィールド名については、次の表の用になります。 適宜、書籍のフィールド名と置き換えながら読み進めたり、試したりしてください。
Kuromojiフィールド | lucene-gosenフィールド |
---|---|
title | title_gosen |
author | auther_gosen |
summary | summary_gosen |
intended_reader | intended_reader_gosen |
from_author | from_author_gosen |
toc | toc_gosen |
2章
2.1.3 schema.xmlのバージョン(27ページ)
Solr3.xではschema.xmlのファイルの最新バージョンは**1.5**になっています。
2.2.3 代表的なトークナイザ(35ページ)
solrbook.analysis.SenTokenizerFactoryは必要ありません。 Solr 3.6.0からはKuromojiと呼ばれる形態素解析器が用意されています。 solr.JapaneseTokenizerFactoryがそれに該当します。 これとは別に、lucene-gosenを利用する場合、Solr向けのトークナイザが用意されています。 solr.GosenTokenizerFactoryがそれに該当します。
2.2.4 代表的なトークンフィルタ(37ページ)
以下の2つについてはKuromojiが同等のトークンフィルタを提供しています。 また、lucene-gosenを利用する場合は、lucene-gosenに同等のトークンフィルタが存在します。
- solrbook.analysis.KatakanaStemFilterFactory
- solrbook.analysis.POSFilterFactory
次のものがSolr 3.6.0に用意されているので、こちらを利用します。
- solr.JapaneseKatakanaStemFilterFactory
- solr.JapanesePartOfSpeechStopFilterFactory
それぞれ、次のものがlucene-gosenにあるので、こちらを利用します。
- solr.GosenKatakanaStemFilterFactory
- solr.GosenPartOfSpeechStopFilterFactory
2章向けのschema.xmlはこちらです。その他のtxtファイルについては、特に変更はありません。
3,4章は特に変更はありません。Solrの起動の仕方にだけ注意してください。(-Dsen.homeは必要ありません)
以上が4章までの修正点になります。
昨日に引き続き、眠い目をこすりながら修正したので、おかしいかも。 動かない、意味がわからないなどあれば、コメントorツイートいただければと思います。
2012/06/14提供しているschema.xmlに関して修正を加えました。こちらの記事で説明しているautoGeneratePhraseQueriesの値をtext_gosen、text_cjkのフィールドに対してtrueを設定する記述を追記しました。
comments powered by Disqus
See Also by Hugo
- 「Apache Solr入門」のサンプルのlucene-gosen対応(1章から4章)(Jugemより移植)
- Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)(Jugemより移植)
- Solr4.3.0のChangesを訳してみた。(Jugemより移植)
- スキーマレスモード?(SOLR-4897)を調べて見ました。
- 【重要】lucene-gosenの次期リリースについて(Jugemより移植)