【重要】lucene-gosen 2.0.0リリース(Jugemより移植)

Posted by johtani on Monday, April 2, 2012

目次

先日、宣言したとおり、lucene-gosenのパッケージ名+クラス名の変更を行ったlucene-gosen 2.0.0をリリースしました。 Lucene/Solr 3.6.0のリリースを待つつもりだったのですが、なかなか出ないので先にリリースを行いました。 現時点では、branches/4xについては、パッケージ名、クラス名の修正が追いついていません。 明日までに4xブランチについても修正を反映する予定です。

参考までに、1.2.1から2.0.0への変更点について以下にまとめました。 また、変更に伴い、Solrのschema.xmlに記述するクラス名も変更になります。 schema.xmlのサンプルについてはこちらをご覧下さい。

変更点


まずは、パッケージ名の変更点です。 左が旧パッケージ名、右が新パッケージ名となります。

旧パッケージ名 新パッケージ名
org.apache.lucene.analysis.ja org.apache.lucene.analysis.gosen
org.apache.lucene.analysis.ja.tokenAttributes org.apache.lucene.analysis.gosen.tokenAttributes

また、パッケージ名とは別に、以下のクラス名も変更になっています。 まずは、org.apache.lucene.analysis.gosenのクラス名の変更点です。

旧クラス名 新クラス名
JapaneseAnalyzer.java GosenAnalyzer.java
JapaneseBasicFormFilter.java GosenBasicFormFilter.java
JapaneseKatakanaStemFilter.java GosenKatakanaStemFilter.java
JapanesePartOfSpeechKeepFilter.java GosenPartOfSpeechKeepFilter.java
JapanesePartOfSpeechStopFilter.java GosenPartOfSpeechStopFilter.java
JapanesePunctuationFilter.java GosenPunctuationFilter.java
なし GosenReadingsFormFilter.java
JapaneseTokenizer.java GosenTokenizer.java
JapaneseWidthFilter.java GosenWidthFilter.java
次は**org.apache.solr.analysis**です。
旧クラス名 新クラス名
JapaneseBasicFormFilterFactory.java GosenBasicFormFilterFactory.java
JapaneseKatakanaStemFilterFactory.java GosenKatakanaStemFilterFactory.java
JapanesePartOfSpeechKeepFilterFactory.java GosenPartOfSpeechKeepFilterFactory.java
JapanesePartOfSpeechStopFilterFactory.java GosenPartOfSpeechStopFilterFactory.java
JapanesePunctuationFilterFactory.java GosenPunctuationFilterFactory.java
なし GosenReadingsFormFilterFactory.java
JapaneseTokenizerFactory.java GosenTokenizerFactory.java
JapaneseWidthFilterFactory.java GosenWidthFilterFactory.java

また、上記クラスに関連するテストクラスの名前も変更になっています。

以上がクラス名、パッケージ名の対応に関する修正ついてでした。


また、現在、Java7にてテストケースが失敗する問題が見つかっています。 こちらの問題の対応版についても近日中にリリースを行う予定です。

問題点、質問などありましたら、コメントしていただくと回答いたします。

2012-04-03追記 忘れてました、すみません。今回のリリースで、以下の機能が追加されています。

  • Antのパラメータにproxy.user、proxy.passwordの追加
  • GosenReadingsFormFilterの追加
  • TokenAttributeの修正(PronunciationsAttributeImpl、ReadingsAttributeImpl)

Antは認証が必要なプロキシ環境で辞書のビルドを実施するときにユーザ名、パスワードを指定できるようにしました。

GosenReadingsFormFilterは単語を読みに変換するTokenFilterになります。 よみは、辞書に登録してある読みになります。オプションとして、romanizedが指定可能です。指定をすると、よみをローマ字に変換します。

TokenAttributeの修正は、バグフィックスになります。Issueはこちらです。


comments powered by Disqus