@johtaniの日記 3rd

@johtani's blog 3rd edition

複数辞書の読み込み機能追加（仮）(Jugemより移植)

先日、辞書のjarファイルからの分離についてパッチと記事を書きました。 IssueにあげていたパッチをRobertさんが見ていたらしく、次のようなコメントをもらいました。 Maybe if we change SenFactory.getInstance to use a ConcurrentHashMap then you can easily use multiple dictionaries at the same time? 「SenFactory.getInstanceメソッドでConcurrentHashMap使ったら複数辞書対応できるんじゃない？」（訳）たしかに。。。なんで思いつかなかったのだろう。。。

2011-08-30 by johtani

辞書のjarファイルからの分離(Jugemより移植)

ひさびさに、lucene-gosenの話題です。 lucene-gosenはjarファイルに辞書も同梱されており、jarファイルをクラスパスに取り込むだけで、簡単に形態素解析器が利用できるといお手軽さがあり、便利です。

2011-08-23 by johtani

NAIST-JDic for MeCabのPreprocessorの実装に関する備忘録(Jugemより移植)

忘れてしまうので、備忘録を残しておきます。一応、ソースには少しずつコメントをいれてはいるのですが。私は残念ながら、自然言語処理は初心者に毛が生えた程度（現在、鋭意勉強中）で、対応方法に問題があるかもしれません。気づいた方はコメントをいただけると助かります。

2011-07-12 by johtani

lucene-gosen 1.1.1リリース(Jugemより移植)

lucene-gosen 1.1.1をリリースしました。先日お知らせしたバグ修正を取り込んだjarを用意いしました。ダウンロードはこちらから

2011-07-04 by johtani

compositePOS（CompositeTokenFilter）のバグ修正(Jugemより移植)

以前、こちらで話題に上がっていた「未知語」に関するcompositePOSのエラーの件を調査しました。（Twitterでも流れてました。）次のような条件の場合にエラーが発生するようです。 compositePOSの設定に構成品詞として「未知語」が指定されたエントリが存在する。未知語が連続して出現する文字列をanalyzeする。（例：ニンテンドーDSi）ということで、trunkに修正版をコミットしました。 Issueはこちら。

2011-06-28 by johtani

NAIST-JDic for MeCab対応版（仮実装）(Jugemより移植)

lucene-gosenのtrunkbranches/impl-mecab-dicにNAIST-JDic for MeCabの辞書を利用出来るPreprocessorをコミットしました。ビルド方法は次のとおりです。

2011-06-21 by johtani

compositePOSの利用例（naist-chasenでの英単語の出力方法例）(Jugemより移植)

前回、naist-chasenではアルファベットが別々の単語としてanalyzeされてしまうという話をしました。ただ、これだと、英単語が含まれた文章を形態素解析すると、英単語がアルファベット単位に区切られてしまい、単語の意味をなさなくなってしまいます。

2011-06-14 by johtani

lucene-gosen 1.1.0 リリース(Jugemより移植)

lucene-gosenの1.1.0がリリースされました。大きな目玉はJapaneseTokenizerが出力する形態素に関するデータを遅延ロードすることで、パフォーマンスの改善を行ったことです。

2011-06-13 by johtani

lucene-gosenのTokenFilterたち(Jugemより移植)

lucene-gosenをSolr/Luceneで利用する場合、TokenFilterを利用してTokenizerが出力したToken対してさまざまな処理（Tokenに対する正規化や展開など）を追加することが可能です。

2011-06-06 by johtani

辞書とカスタム辞書について(Jugemより移植)

辞書の特性について現在lucene-gosenでは以下の2つの辞書が利用可能です。簡単に違いについて説明します。 IPAdicの辞書についてバージョン：2.6.0（※IPAdicとして公開されている最新は2.7.0）最終更新日：2003/06/19 登録単語数：約24万語 NAIST-Jdicができたためか、更新されていない NAIST-Jdic-for-ChaSenの辞書について

2011-06-02 by johtani