目次
先日、2.0.0リリースの記事にも記載しましたが、Java7でテストケースが失敗する問題がありました。
@haruyamaさんと@hideaki_tさんの協力により問題を解消し、trunkと4xブランチにコミットしました。
issueにも記載しましたが、Java6からJava7にバージョンアップするタイミングで変更されたUnicodeのバージョンが原因でした。 Java6ではUnicodeのバージョンが4.0です。Java7ではUnicodeのバージョンが6.0に変更されています。 今回の問題は「・」(0x30FB)の文字列のCharacter.getType()がCONNECTOR_PUNCTUATIONからOTHER_PUNCTUATIONに変更されたのが原因です。(この変更自体はUnicode 4.1で変更されたみたい) カタカナ文字種の判別をlucene-gosenのnet.java.sen.tokenizers.ja.JapaneseTokenizerのgetCharClass(char c)メソッドで行なっています。 修正前は、ここで、charの範囲が0x30A0~0x30FFにある文字でかつ、Character.getType()がCONNECTOR_PUNCTUATIONでないものがカタカナとして判別されていました。 issueの添付ファイルにJava6とJava7で上記範囲の文字のCharacter.getType()のリストを生成して、該当する文字を探した所、「・」(0x30FB)のみであることがわかりました。 ということで、このコードの意図としては、「・」はカタカナではないと判別したかったのだと。 上記の確認を行えたので、ソースコードを修正してコミットしました。 2.0.1としてリリースするかは、Issue29のボリュームを見て考えますので、もう少しお待ちください。
参考にしたサイト: JavaSE 7でメソッド名に使えなくなった文字 UNICODE CHARACTER DATABASEのHistory
comments powered by Disqus
See Also by Hugo
- lucene-gosenのTokenFilterたち(Jugemより移植)
- Issue32について(4096の壁)(Jugemより移植)
- lucene-gosen 2.0.1リリース(Java7対応)(Jugemより移植)
- 【重要】lucene-gosen 2.0.0リリース(Jugemより移植)
- 【重要】lucene-gosenの次期リリースについて(Jugemより移植)