NAIST-JDic for MeCab対応版(仮実装)(Jugemより移植)

Posted by johtani on Tuesday, June 21, 2011

目次

lucene-gosenのtrunkbranches/impl-mecab-dicにNAIST-JDic for MeCabの辞書を利用出来るPreprocessorをコミットしました。

ビルド方法は次のとおりです。


$ cd lucene-gosen-trunk
$ ant -Ddictype=naist-mecab


現在のstable版で利用できる辞書は「ipadic」「naist-chasen」の2種類でした。
以前の記事に書きましたが、naist-chasenの辞書でも2008年の更新となっています。
今回コミットしたPreprocessorではNAIST-JDicのサイトで公開されているMeCab向けの辞書である「mecab-naist-jdic-0.6.3-20100801」を利用出来るようになります。

ただし、lucene-gosenは昔のMeCabから派生したSenをもとにしていますので、最新のMeCabが持っている機能は
利用できません。
MeCab向けの辞書のうち一部のもの(matrix.def、naist-jdic.csvなど)を利用してlucene-gosen向けの辞書の中間ファイルを生成する仕組みになっています。

まだ、仮実装版ということで、とりあえず動作するバージョンとなっています。
まだテストが不十分ですが。。。
利用してみて問題などあれば、lucene-gosenのissueに登録していただくか、コメントを頂ければと思います。

※更新が週1回に落ちてきてるので、もう少し頑張らねば。

※2011/07/04追記 trunkにコミットしていましたが、branchに一旦移動しました。 仮実装として一旦コミットしたので、trunkとは別でテストする必要があるかと思った次第です。 ということで、試してみたい方は、branches/impl-mecab-dicにありますので、触ってみてください。


comments powered by Disqus