@johtaniの日記 3rd

@johtani's blog 3rd edition

compositePOSの利用例(naist-chasenでの英単語の出力方法例)(Jugemより移植)

前回、naist-chasenではアルファベットが別々の単語としてanalyzeされてしまうという話をしました。 ただ、これだと、英単語が含まれた文章を形態素解析すると、英単語がアルファベット単位に区切られてしまい、 単語の意味をなさなくなってしまいます。

lucene-gosen 1.1.0 リリース(Jugemより移植)

lucene-gosenの1.1.0がリリースされました。 大きな目玉はJapaneseTokenizerが出力する形態素に関するデータを遅延ロードすることで、パフォーマンスの改善を行ったことです。

lucene-gosenのTokenFilterたち(Jugemより移植)

lucene-gosenをSolr/Luceneで利用する場合、TokenFilterを利用してTokenizerが出力したToken対してさまざまな処理(Tokenに対する正規化や展開など)を追加することが可能です。

辞書とカスタム辞書について(Jugemより移植)

辞書の特性について 現在lucene-gosenでは以下の2つの辞書が利用可能です。 簡単に違いについて説明します。 IPAdicの辞書について バージョン:2.6.0(※IPAdicとして公開されている最新は2.7.0) 最終更新日:2003/06/19 登録単語数:約24万語 NAIST-Jdicができたためか、更新されていない NAIST-Jdic-for-ChaSenの辞書について

ソースからのビルドと構成(Jugemより移植)

今回はソースのダウンロードとビルドについてです。 最新版のソースを利用したり、JavaDocを見たい場合はソースをダウンロードしてからビルドすることになります。 ソースのダウンロードからビルドまでの手順について説明します。

lucene-gosenとは(Jugemより移植)

概要: Lucene/SolrのコミッターであるRobert Muirさんが始めたプロジェクト 歴史: MeCabのJava移植版としてスタートしたSenがベースになります。 その後、辞書の構築部分をPerlからJavaに置き換えたGoSenが登場しました。 が、どちらもメンテナンスされなくなってきたので、Robertさんが引き継いでメンテナンスとLucene/Solr対応をはじめました。そして、現在にいたります。

ブログはじめます(Jugemより移植)

今さらですが、ブログをはじめてみようかと。今さらですが… はじめてみようと思った一番の理由は、自分で調べたことをメモがわりに残すためです。 あとは、自分を追い込むためもありますが。(こっちが一番の理由かも)最近勉強してないなぁと感じているので。 ということで、まずは、lucene-gosenやsolrについて書いていく予定です。