@johtaniの日記 3rd

@johtani's blog 3rd edition

autoGeneratePhraseQueriesのデフォルト値について(Jugemより移植)

久々にSolrの話です。 といっても、結構前からの話でして。。。 schema.xmlのfieldTypeの設定に「autoGeneratePhraseQueries」という属性があります。 Solr3.1で導入されました。動作に関しては関口さんのブログで説明されています。 Solr 1.4までは、Analyzerがトークンを複数返してくる場合(例:lucene-gosenで「Solr入門」という文字列を入れた場合など)にフレーズクエリとして処理していました。 Lucene 3.1.0から、この処理がデフォルトfalse(つまり、フレーズクエリにならない)という挙動になりました。(詳しくは関口さんのブログで。) ただ、Solr 3.1.0では、下位互換性を考慮して、autoGeneratePhraseQueriesの設定値はデフォルトが「true」でした。

Twitterが公開した分散トレーシング(追跡?)システム、Zipkin(Jugemより移植)

すでに読まれた方もいるかも知れませんが、気になったのでメモを書いてみようかと。 先週の木曜日にTwitterのエンジニアブログでZipkinというOSSを公開したという記事がでました。 非常に興味深いシステムだったので、ちょっとずつ読み解いていきたいなという宣言(というか、ハッパをかけてもらうため)も兼ねて、まずはブログの内容をメモ程度に残しておきます。

lucene-gosen 2.0.2リリース(リソース周りの改善など)(Jugemより移植)

lucene-gosenの最新版(2.0.1)をリリースしました。 プロジェクトページよりダウンロードが可能です。 今回の修正では、@haruyama さんからいただいていたパッチの取り込み(リソース周りの改善など)が主な対応となっています。 また、コンパイルに利用するjarファイルがLucene/Solr3.6.0に変更になっています。(Issueはこちら) 3.6.0から追加されたテストケースにて、発生する問題への対処も施したものとなっています。

Issue32について(4096の壁)(Jugemより移植)

昨晩に引き続き、情けない内容のブログになってしまいますが。。。 昨晩、書いた記事の調査をしていた時に気づいた、問題になるケースがあったので調査をしていました。 Issue32に登録した内容になります。 拙い英語を振り絞って書いた英語なので、伝わらないかもしれないのでブログに残しておきます。 昨晩の問題点となったクラス(StreamTagger2.java)の内部処理についてです。 lucene-gosenのLucene向けのTokenizerの内部処理では入力文字列の処理を行うのに、「char buffer[]」を用いて 入力文字列をReaderから読み込むときにバッファリングしています。 このバッファリングにて、特定のケースにて、想定していない場所を単語の切れ目と認識してしまう問題が実装上存在しました。 Issue32に記載した内容は次のようになります。

trunkのライブラリ差し替え(Lucene/Solr3.6.0)とランダムテストの失敗について(Jugemより移植)

久々にlucene-gosenを触っています。 trunkのlibにある、jarファイルが3.5ベースだったので、3.6ベースにしてテストをしたところ、 いくつかある、ランダムテストで結果の不整合が検出されたので、調査していました。 先程、trunkに対応版をコミットしました。もう少しテストケースを追加してからリリースします。 おそらく、通常の使い方では問題無いと思います。

オープンソースへの貢献のススメ(Jugemより移植)

録画してたEテレのスーパープレゼンテーションを見ててふと書きたくなったので、書いてます。 あとから読んだら恥ずかしくなりそうだけど。。。 「“知力の余剰"が世界を変える」というClay Shirkyさんの話を見て思ったことです。 社会的に貢献できる仕組みが最近増えているという話の内容でした。そこで、OSSについても同じことが言えるよなぁと思った次第でして。

JJUG CCC 2012 Springに参加してきました。(Jugemより移植)

JJUG CCC 2012 Springに参加してきました。 昨年のFallに続き、2回目です。 概要や、タイムテーブルはこちらを御覧ください。 今回は、午後一から参加しました。 色々と迷いましたが、つぎのを聞いて来ました。

PlayFramework 2.0(Javaの方)を触ってみてる(Jugemより移植)

PlayFramework2.0を触ってみてます。 ちょっとコーディングしたくなったのと、最近のアプリの作成の調査も兼ねて。 まぁ、せっかくなので、Solr検索のアプリでも作ってみようかと言うことで触ってます。 ただ、Solr検索アプリでしかなく、今のところDBを使わないので、実はPlay Frameworkじゃなくてもいいのではないかという疑問も。。。

lucene-gosen 2.0.1リリース(Java7対応)(Jugemより移植)

lucene-gosenの最新版(2.0.1)をリリースしました。 プロジェクトページよりダウンロードが可能です。 今回の修正では、Java7でUnicodeのバージョン変更に伴う対応(詳細はこちらを参照)を行なっています。 リソース周りの対応はまた後日。。。すみません。2012/05/16 遅くなりましたが、昨晩、JavaDocをアップしました。

「IDの秘密」を読みました。(Jugemより移植)

IDの秘密 (丸善ライブラリー―情報研シリーズ) 非常に面白く読めました。 バーコードの話に始まり、最後はシステムで付与するIDに関する考慮点まで幅広くIDについて語られています。