目次
lucene-gosenのtrunkbranches/impl-mecab-dicにNAIST-JDic for MeCabの辞書を利用出来るPreprocessorをコミットしました。
ビルド方法は次のとおりです。
$ cd lucene-gosen-trunk
$ ant -Ddictype=naist-mecab
現在のstable版で利用できる辞書は「ipadic」「naist-chasen」の2種類でした。
[以前の記事](http://johtani.jugem.jp/?eid=4)に書きましたが、naist-chasenの辞書でも2008年の更新となっています。
今回コミットしたPreprocessorでは[NAIST-JDicのサイト](http://sourceforge.jp/projects/naist-jdic/)で公開されているMeCab向けの辞書である「mecab-naist-jdic-0.6.3-20100801」を利用出来るようになります。
ただし、lucene-gosenは昔のMeCabから派生したSenをもとにしていますので、最新のMeCabが持っている機能は
利用できません。
MeCab向けの辞書のうち一部のもの(matrix.def、naist-jdic.csvなど)を利用してlucene-gosen向けの辞書の中間ファイルを生成する仕組みになっています。
まだ、仮実装版ということで、とりあえず動作するバージョンとなっています。
まだテストが不十分ですが。。。
利用してみて問題などあれば、lucene-gosenの[issue](http://code.google.com/p/lucene-gosen/issues/list)に登録していただくか、コメントを頂ければと思います。
※更新が週1回に落ちてきてるので、もう少し頑張らねば。
※2011/07/04追記 trunkにコミットしていましたが、branchに一旦移動しました。 仮実装として一旦コミットしたので、trunkとは別でテストする必要があるかと思った次第です。 ということで、試してみたい方は、[branches/impl-mecab-dic](http://code.google.com/p/lucene-gosen/source/browse/#svn%2Fbranches%2Fimpl-mecab-dic)にありますので、触ってみてください。
comments powered by Disqus
See Also by Hugo
- 辞書とカスタム辞書について(Jugemより移植)
- lucene-gosenのUniDic対応(Jugemより移植)
- lucene-gosenとSynonymFilterを利用するときの注意点(問題点編)(Jugemより移植)
- 辞書の外部化とLucene/Solr3.4対応(Jugemより移植)
- 辞書のjarファイルからの分離(Jugemより移植)