@johtaniの日記 3rd

@johtani's blog 3rd edition

複数辞書の読み込み機能追加(仮)(Jugemより移植)

先日、辞書のjarファイルからの分離についてパッチと記事を書きました。 IssueにあげていたパッチをRobertさんが見ていたらしく、次のよ

辞書のjarファイルからの分離(Jugemより移植)

ひさびさに、lucene-gosenの話題です。 lucene-gosenはjarファイルに辞書も同梱されており、jarファイルをクラスパスに

NAIST-JDic for MeCabのPreprocessorの実装に関する備忘録(Jugemより移植)

忘れてしまうので、備忘録を残しておきます。 一応、ソースには少しずつコメントをいれてはいるのですが。 私は残念ながら、自然言語処理は初心者に毛が

lucene-gosen 1.1.1リリース(Jugemより移植)

lucene-gosen 1.1.1をリリースしました。 先日お知らせしたバグ修正を取り込んだjarを用意いしました。 ダウンロードはこちらから

compositePOS(CompositeTokenFilter)のバグ修正(Jugemより移植)

以前、こちらで話題に上がっていた「未知語」に関するcompositePOSのエラーの件を調査しました。(Twitterでも流れてました。) 次

NAIST-JDic for MeCab対応版(仮実装)(Jugemより移植)

lucene-gosenのtrunkbranches/impl-mecab-dicにNAIST-JDic for MeCabの辞書を利用出来るPre

compositePOSの利用例(naist-chasenでの英単語の出力方法例)(Jugemより移植)

前回、naist-chasenではアルファベットが別々の単語としてanalyzeされてしまうという話をしました。 ただ、これだと、英単語が含ま

lucene-gosen 1.1.0 リリース(Jugemより移植)

lucene-gosenの1.1.0がリリースされました。 大きな目玉はJapaneseTokenizerが出力する形態素に関するデータを遅延

lucene-gosenのTokenFilterたち(Jugemより移植)

lucene-gosenをSolr/Luceneで利用する場合、TokenFilterを利用してTokenizerが出力したToken対して

辞書とカスタム辞書について(Jugemより移植)

辞書の特性について 現在lucene-gosenでは以下の2つの辞書が利用可能です。 簡単に違いについて説明します。 IPAdicの辞書について バ