@johtaniの日記 3rd

@johtani's blog 3rd edition

複数辞書の読み込み機能追加(仮)(Jugemより移植)

先日、辞書のjarファイルからの分離についてパッチと記事を書きました。 IssueにあげていたパッチをRobertさんが見ていたらしく、次のようなコメントをもらいました。 Maybe if we change SenFactory.getInstance to use a ConcurrentHashMap then you can easily use multiple dictionaries at the same time? 「SenFactory.getInstanceメソッドでConcurrentHashMap使ったら複数辞書対応できるんじゃない?」(訳) たしかに。。。なんで思いつかなかったのだろう。。。

辞書のjarファイルからの分離(Jugemより移植)

ひさびさに、lucene-gosenの話題です。 lucene-gosenはjarファイルに辞書も同梱されており、jarファイルをクラスパスに取り込むだけで、 簡単に形態素解析器が利用できるといお手軽さがあり、便利です。

NAIST-JDic for MeCabのPreprocessorの実装に関する備忘録(Jugemより移植)

忘れてしまうので、備忘録を残しておきます。 一応、ソースには少しずつコメントをいれてはいるのですが。 私は残念ながら、自然言語処理は初心者に毛が生えた程度(現在、鋭意勉強中)で、対応方法に問題があるかもしれません。気づいた方はコメントをいただけると助かります。

lucene-gosen 1.1.1リリース(Jugemより移植)

lucene-gosen 1.1.1をリリースしました。 先日お知らせしたバグ修正を取り込んだjarを用意いしました。 ダウンロードはこちらから

compositePOS(CompositeTokenFilter)のバグ修正(Jugemより移植)

以前、こちらで話題に上がっていた「未知語」に関するcompositePOSのエラーの件を調査しました。(Twitterでも流れてました。) 次のような条件の場合にエラーが発生するようです。 compositePOSの設定に構成品詞として「未知語」が指定されたエントリが存在する。 未知語が連続して出現する文字列をanalyzeする。(例:ニンテンドーDSi) ということで、trunkに修正版をコミットしました。 Issueはこちら。

NAIST-JDic for MeCab対応版(仮実装)(Jugemより移植)

lucene-gosenのtrunkbranches/impl-mecab-dicにNAIST-JDic for MeCabの辞書を利用出来るPreprocessorをコミットしました。 ビルド方法は次のとおりです。

compositePOSの利用例(naist-chasenでの英単語の出力方法例)(Jugemより移植)

前回、naist-chasenではアルファベットが別々の単語としてanalyzeされてしまうという話をしました。 ただ、これだと、英単語が含まれた文章を形態素解析すると、英単語がアルファベット単位に区切られてしまい、 単語の意味をなさなくなってしまいます。

lucene-gosen 1.1.0 リリース(Jugemより移植)

lucene-gosenの1.1.0がリリースされました。 大きな目玉はJapaneseTokenizerが出力する形態素に関するデータを遅延ロードすることで、パフォーマンスの改善を行ったことです。

lucene-gosenのTokenFilterたち(Jugemより移植)

lucene-gosenをSolr/Luceneで利用する場合、TokenFilterを利用してTokenizerが出力したToken対してさまざまな処理(Tokenに対する正規化や展開など)を追加することが可能です。

辞書とカスタム辞書について(Jugemより移植)

辞書の特性について 現在lucene-gosenでは以下の2つの辞書が利用可能です。 簡単に違いについて説明します。 IPAdicの辞書について バージョン:2.6.0(※IPAdicとして公開されている最新は2.7.0) 最終更新日:2003/06/19 登録単語数:約24万語 NAIST-Jdicができたためか、更新されていない NAIST-Jdic-for-ChaSenの辞書について