@johtaniの日記 3rd

@johtani's blog 3rd edition

【重要】lucene-gosen 2.0.0リリース(Jugemより移植)

先日、宣言したとおり、lucene-gosenのパッケージ名+クラス名の変更を行ったlucene-gosen 2.0.0をリリースしました。 Lucene/Solr 3.6.0のリリースを待つつもりだったのですが、なかなか出ないので先にリリースを行いました。 現時点では、branches/4xについては、パッケージ名、クラス名の修正が追いついていません。 明日までに4xブランチについても修正を反映する予定です。

【重要】lucene-gosenの次期リリースについて(Jugemより移植)

lucene-gosenを利用して頂いてる皆様に連絡があります。 連絡事項 次期lucene-gosenのリリース(2.0を予定)にて、org.apache系のパッケージ名および、クラス名の変更を行います。 Lucene/Solrの次期リリース版である3.6.0以降では、lucene-gosen 2.0(予定)を利用するようにしてください。

lucene-gosenとSynonymFilterを利用するときの注意点(問題点編)(Jugemより移植)

久々にlucene-gosenの話です。 しかも、あんまり嬉しくない話しです。 すでにissueをアップしていますが、lucene-gosenとSynonymFilterを併用する場合に、特定の条件下でNullPointerExceptionが発生してしまいます。 条件は以下の組み合わせになります。 Solr 3.5.0以前 lucene-gosen1.2.0 - 1.2.1の辞書なしjar SynonymFilterFactoryにてtokenizerFactoryを指定 根本的にはSolr側の問題のようです。SOLR-2909としてissueが上がっています。

lucene-gosenのLucene/Solr4.0対応ブランチ更新(Jugemより移植)

先日のSolr勉強会でLucene/Solr4.x系のlucene-gosenについて質問を受けていたのを忘れないように(年越しちゃいました、すみません。)先週金曜日(1/6)にissueに登録しました。 まずは忘れないようにと思って、登録だけして3連休に突入したのですが、Robertさんが1/7に対応してくれました。 Lucene/Solr 4.x系では3.x系とはパッケージやメソッドが変更されるなど少し異なる部分があります。 lucene-gosenでは、プロジェクトのページにもあるとおり、4.x系にも対応しています。 ただ、この4x系に対応したブランチが、2011年5月から放置されていました。

1.2.1リリースしました(Jugemより移植)

lucene-gosenの最新版(1.2.1)をリリースしました。 プロジェクトページよりダウンロードが可能です。 今回の修正では、特定文字列でメモリの使用量が爆発してしまうバグへの対処となっています。 1.2.1以前のバージョンを利用している場合は最新版を利用するようにしてください。

「Apache Solr入門」のサンプルのlucene-gosen対応(1章から4章)(Jugemより移植)

先週末から勤労感謝の日まで風邪で寝こんでました。。。 みなさん、朝晩、冷え込みが激しいので風邪には気をつけてください。 季節の言葉も入れたので本題です。 つい最近、「Apache Solr入門」のサンプルをlucene-gosenでどうやって動かすんですかー?という質問を受けました。 確かに、「Apache Solr入門」を書いたのはSolrのバージョンが1.4が出る直前でしたし、lucene-gosenは存在せず、 当時はSenを元にした日本語の形態素解析のサンプルとなっていました。 そのSenも入手しづらくなってきており、私もlucene-gosenのプロジェクトに携わるようになってきてある程度時間が 経ちました。 せっかくなので、サンプルのschema.xmlだけでも最新版(Solr 3.4 + lucene-gosen-1.2.0-ipadic)のものを用意しました。 なお、あくまでも、3.xでlucene-gosenを利用する場合の「Apache Solr入門」のサンプルプログラムの変更点(とりあえず、4章まで)の違いについて記述します。 申し訳ございませんが、1.4と3.xの違いについての説明はここでは行いません。

1.2.0リリース(Jugemより移植)

lucene-gosenの最新版(1.2.0)をリリースしました。 プロジェクトページよりダウンロードが可能です。 新規追加機能についてはこちらのエントリを御覧ください。 バグなどありましたら、容赦なく報告をいただけると助かります。

辞書の外部化とLucene/Solr3.4対応(Jugemより移植)

すぐやりますと言いつつ、はや1ヶ月。。。 腰が重い、ダメエンジニアですね。。。 すみませんでした。。。 ようやくtrunkにコミットしました。 すぐにリリース版を用意すると思います。 1ヶ月もあいてしまったので、追加した機能に関するまとめと、 用途別の利用方法を記載しておきます。 (lucene-gosenのWikiにもそろそろ書かないとなぁ。日本語でもいいから。)

lucene-gosenで文章からキーワード抽出(イレギュラー?)(Jugemより移植)

昨日、文章から特定の単語(リストあり)を探したいという話を聞き、lucene-gosenでもできるねぇという話になりました。 まぁ、考えてみればごくごく当たり前なのですが。。。(その筋の方たちにしてみれば常識なのかもしれないですが。。。) 一応やってみたので、こんなこともできるなという一例ですということで、記録を残しておきます。

辞書分離のテストケース追加と残タスク(Jugemより移植)

すぐにテストケース追加しますといいつつ、はや一週間。 ようやく仕事が落ち着いたので、テストケースを追記しました。まだパッチの段階です。 一応、異なる辞書の読み込みのテストケースなどを追加し、テストケース追加時点で いくつか気になったところもあったので、ついでに修正を加えました。 一応、辞書の分離+複数辞書対応については現時点ではこんなところかと。