目次
lucene-gosenのtrunkbranches/impl-mecab-dicにNAIST-JDic for MeCabの辞書を利用出来るPreprocessorをコミットしました。
ビルド方法は次のとおりです。
$ cd lucene-gosen-trunk
$ ant -Ddictype=naist-mecab
現在のstable版で利用できる辞書は「ipadic」「naist-chasen」の2種類でした。
[以前の記事](http://johtani.jugem.jp/?eid=4)に書きましたが、naist-chasenの辞書でも2008年の更新となっています。
今回コミットしたPreprocessorでは[NAIST-JDicのサイト](http://sourceforge.jp/projects/naist-jdic/)で公開されているMeCab向けの辞書である「mecab-naist-jdic-0.6.3-20100801」を利用出来るようになります。
ただし、lucene-gosenは昔のMeCabから派生したSenをもとにしていますので、最新のMeCabが持っている機能は
利用できません。
MeCab向けの辞書のうち一部のもの(matrix.def、naist-jdic.csvなど)を利用してlucene-gosen向けの辞書の中間ファイルを生成する仕組みになっています。
まだ、仮実装版ということで、とりあえず動作するバージョンとなっています。
まだテストが不十分ですが。。。
利用してみて問題などあれば、lucene-gosenの[issue](http://code.google.com/p/lucene-gosen/issues/list)に登録していただくか、コメントを頂ければと思います。
※更新が週1回に落ちてきてるので、もう少し頑張らねば。
※2011/07/04追記 trunkにコミットしていましたが、branchに一旦移動しました。 仮実装として一旦コミットしたので、trunkとは別でテストする必要があるかと思った次第です。 ということで、試してみたい方は、[branches/impl-mecab-dic](http://code.google.com/p/lucene-gosen/source/browse/#svn%2Fbranches%2Fimpl-mecab-dic)にありますので、触ってみてください。
comments powered by Disqus
FEATURED TAGS
aws
azure-search
berlin-buzzwords
cloudera
cloudera-search
conference
curator
dev-container
diyキーボード
elastic
elasticsearch
fluentd
hadoop
hugo
java
kibana
kuromoji
logstash
lucene
lucene-gosen
manifoldcf
marvel
misc
morphlines
nlp100
octopress
paper
plugin
python
riak
rust
rust-the-book
search
shield
solr
visual-studio-code
wikipedia
windows
workplace-search
yokozuna
zipkin
オライリー
ブログ
備忘録
勉強会
振り返り
本
検索
読書
転職