@johtaniの日記 3rd

@johtani's blog 3rd edition

Lucene/Solr 3.6.0リリース / 「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(1章)(Jugemより移植)

以前より、アナウンスしていた、Kuromojiという日本語形態素解析が含まれるLucene/Solr 3.6.0がリリースされました。 以下、各リリース内容について簡単に説明されているページへのリンクです。

【メモ】Amazon CloudSearchが出てきましたよ(Jugemより移植)

Twitterでこのブログ流れてきて、気になったので、流し読みして簡単にメモ。 Amazonのサービスでスケールする検索サービスみたい。 主に、機能面です。価格とかはみてないです。 データと検索トラフィックに対して自動でスケール(※automaticってのがどういう感じかは調べてないです) CloudSearch APIsでアクセス可能。AWS管理コンソールからオペレーションできる。コマンドツールもある データ登録にHTTPSも使えますよ。データ形式はJSON、XML、SDF(Search Document Format)と呼ばれるものに準拠したもの near real-timeで検索可能になる。RAMにインデックスを保持して更新処理が早くなる(Lucene/Solrと一緒か?) ステミングとかストップワードの設定変えたらre-index ファセット、フィールド指定検索が可能。(ファセットはファセットクエリみたいなのもできるのかな?) データ量が増えたら、サーチインスタンスを追加するか、インスタンスタイプを大きくしてスケールする? トラフィックが増えたら新しいインスタンスにデータをレプリケートしてインスタンスを追加する 簡単に実現できるよ。ファセット検索、全文検索、And/OR検索式、ランキングのカスタマイズ、フィールド指定ソート、フィールド指定検索、テキスト処理オプション(ストップワード、類義語、ステミングのような) ここから詳細のドキュメントが見れるみたいなので、また、見てみます。

Java One Tokyo 2012 に参加しました。#JavaOneJp(Jugemより移植)

JavaOne Tokyo 2012に参加してきました。 4/4-4/5の2日間開催されていたのですが、子供が体調を崩してしまい、4/5のみの参加となりました。 4/4はTwitterのTLを眺めて、羨ましがってました。

lucene-gosenのJava7でのテスト失敗問題の対応(Jugemより移植)

先日、2.0.0リリースの記事にも記載しましたが、Java7でテストケースが失敗する問題がありました。 @haruyamaさんと@hideaki_tさんの協力により問題を解消し、trunkと4xブランチにコミットしました。 issueにも記載しましたが、Java6からJava7にバージョンアップするタイミングで変更されたUnicodeのバージョンが原因でした。 Java6ではUnicodeのバージョンが4.0です。Java7ではUnicodeのバージョンが6.0に変更されています。 今回の問題は「・」(0x30FB)の文字列のCharacter.getType()がCONNECTOR_PUNCTUATIONからOTHER_PUNCTUATIONに変更されたのが原因です。(この変更自体はUnicode 4.1で変更されたみたい) カタカナ文字種の判別をlucene-gosenのnet.java.sen.tokenizers.ja.JapaneseTokenizerのgetCharClass(char c)メソッドで行なっています。 修正前は、ここで、charの範囲が0x30A0~0x30FFにある文字でかつ、Character.getType()がCONNECTOR_PUNCTUATIONでないものがカタカナとして判別されていました。 issueの添付ファイルにJava6とJava7で上記範囲の文字のCharacter.getType()のリストを生成して、該当する文字を探した所、「・」(0x30FB)のみであることがわかりました。 ということで、このコードの意図としては、「・」はカタカナではないと判別したかったのだと。 上記の確認を行えたので、ソースコードを修正してコミットしました。 2.0.1としてリリースするかは、Issue29のボリュームを見て考えますので、もう少しお待ちください。

【重要】lucene-gosen 2.0.0リリース(Jugemより移植)

先日、宣言したとおり、lucene-gosenのパッケージ名+クラス名の変更を行ったlucene-gosen 2.0.0をリリースしました。 Lucene/Solr 3.6.0のリリースを待つつもりだったのですが、なかなか出ないので先にリリースを行いました。 現時点では、branches/4xについては、パッケージ名、クラス名の修正が追いついていません。 明日までに4xブランチについても修正を反映する予定です。

【重要】lucene-gosenの次期リリースについて(Jugemより移植)

lucene-gosenを利用して頂いてる皆様に連絡があります。 連絡事項 次期lucene-gosenのリリース(2.0を予定)にて、org.apache系のパッケージ名および、クラス名の変更を行います。 Lucene/Solrの次期リリース版である3.6.0以降では、lucene-gosen 2.0(予定)を利用するようにしてください。

久々にMac Miniのことでも(Jugemより移植)

子供の寝かしつけしてたら、寝かしつけされてしまって、2時に目が覚めてしまいました。 TSUTAYAでCD借りてきてウォークマンに入れようと思っていたのに。。。 ということで、今作業してます。

第5回 Twitter API勉強会 @渋谷 #twtr_hack(Jugemより移植)

はい。またまた、Twitter API勉強会に参加してきました。(今回から開催回数の記載がなくなった?) 今回は直前でタイムテーブルが変わってしまう波乱がありましたが、個人的には楽しめる内容でした。 Twitterの国際化や形態素解析などの話が聞けたのがすごく面白かったです。 アーキテクチャや利用されている形態素解析器の話など、また、現状の問題点なども話が聞けました。 日々、進化しているんだなぁと。 残念ながら、発表者の方が懇親会にいらっしゃらなかったので、詳しく聞けませんでしたが、挨拶だけは出来ました。 実際のテスト環境や導入方法、A/Bテストとかやってるのかなど、ブログをかきながら色々と気になることが出てきてしまいますw 頭の回転がよくないので、話を聞いてる間は質問があんまり思い浮かばなかったなぁ。。。

「自分の小さな「箱」から脱出する方法」を読みました。(Jugemより移植)

TLで面白いと見かけて、Amazonで買ってしまいました。 SEやってるのに、つい最近Amazonを使い始めた軟弱者です。 それにしてもAmazon危険です。スマートフォンにAmazonの Androidアプリを入れたのですが、これがまた、レコメンドに面白そうな本が出てきて危険です。

Scala始めました(Jugemより移植)

えーと、ブログ更新してないなぁとふと思ったので。 1年前くらいからずーっと、つぶやいてましたが、やっとScalaを始めました。 長かった。。。 とある、サンプルデータを作成するので、ついでにScalaを勉強してしまえという感じで始めました。