@johtaniの日記 3rd

@johtani's blog 3rd edition

Solr勉強会第8回に参加しました。 #SolrJP(Jugemより移植)

またまた参加しました。いまだ皆勤賞です。感想などはあとで。とりあえず、メモとったので第一弾です。ということで、感想です。まずは、参加人数。今回は今までで一番、ATND登録した人が多かったんじゃないかなぁと。埋まるのも早かったですし。やっとSolrというキーワードが多くの方に触れられるようになってきたんですかねぇ。

2012-07-04 by johtani

Hadoopソースコードリーディング第10回に参加しました。#hadoopreading(Jugemより移植)

Hadoopからはちょっと離れているのに、面白そうなネタなので参加しました。 Data Science Summit、HBaseCon、Hadoop Summitのイベント参加レポートです。

2012-06-26 by johtani

lucene-gosenのUniDic対応(Jugemより移植)

Issue 32で上がってきたlucee-gosenのUniDic対応の最初のパッチを書いたので、ブログに残しておきます。 ###UniDicとは___ UniDicとは、日本語テキストを単語に分割し，形態論情報を付与するための電子化辞書です。 UniDicの詳細や特長についてはHPを御覧ください。残念ながら、UniDicは利用者登録をして、利用規約に従うと利用が可能となります。ですので、lucene-gosenでは、Ipadicやnaist-chasenの辞書とは異なり自動で辞書をダウンロードする機能はありません。

2012-06-18 by johtani

ZipkinのReadme読んでる（その２、残り）(Jugemより移植)

「鉄は熱いうちに打て」ということで、残りも勢いでメモ。まだ、見直しとかしてない状態なのでおかしいところとかありますが。。。図とか入れるのはまた今度。

2012-06-16 by johtani

ZipkinのReadmeを読んでる（クライアント周りについて）(Jugemより移植)

ZipkinのGithubにあるReadmeを読んでます。せっかくというか、頭が悪いので読みながら内容をメモ。まずは、アーキテクチャとトレースデータ送信のためのクライアント側あたりです。（誤訳とかおかしいだろというツッコミ大歓迎です。）あとで、リンク貼ったり絵を入れたりするかもしれませんが、とりあえず。

2012-06-15 by johtani

autoGeneratePhraseQueriesのデフォルト値について(Jugemより移植)

久々にSolrの話です。といっても、結構前からの話でして。。。 schema.xmlのfieldTypeの設定に「autoGeneratePhraseQueries」という属性があります。 Solr3.1で導入されました。動作に関しては関口さんのブログで説明されています。 Solr 1.4までは、Analyzerがトークンを複数返してくる場合（例：lucene-gosenで「Solr入門」という文字列を入れた場合など）にフレーズクエリとして処理していました。 Lucene 3.1.0から、この処理がデフォルトfalse（つまり、フレーズクエリにならない）という挙動になりました。（詳しくは関口さんのブログで。）ただ、Solr 3.1.0では、下位互換性を考慮して、autoGeneratePhraseQueriesの設定値はデフォルトが「true」でした。

2012-06-14 by johtani

Twitterが公開した分散トレーシング（追跡？）システム、Zipkin(Jugemより移植)

すでに読まれた方もいるかも知れませんが、気になったのでメモを書いてみようかと。先週の木曜日にTwitterのエンジニアブログでZipkinというOSSを公開したという記事がでました。非常に興味深いシステムだったので、ちょっとずつ読み解いていきたいなという宣言（というか、ハッパをかけてもらうため）も兼ねて、まずはブログの内容をメモ程度に残しておきます。

2012-06-13 by johtani

lucene-gosen 2.0.2リリース（リソース周りの改善など）(Jugemより移植)

lucene-gosenの最新版（2.0.1）をリリースしました。プロジェクトページよりダウンロードが可能です。今回の修正では、@haruyama さんからいただいていたパッチの取り込み（リソース周りの改善など）が主な対応となっています。また、コンパイルに利用するjarファイルがLucene/Solr3.6.0に変更になっています。（Issueはこちら） 3.6.0から追加されたテストケースにて、発生する問題への対処も施したものとなっています。

2012-06-07 by johtani

Issue32について（4096の壁）(Jugemより移植)

昨晩に引き続き、情けない内容のブログになってしまいますが。。。昨晩、書いた記事の調査をしていた時に気づいた、問題になるケースがあったので調査をしていました。 Issue32に登録した内容になります。拙い英語を振り絞って書いた英語なので、伝わらないかもしれないのでブログに残しておきます。昨晩の問題点となったクラス（StreamTagger2.java）の内部処理についてです。 lucene-gosenのLucene向けのTokenizerの内部処理では入力文字列の処理を行うのに、「char buffer[]」を用いて入力文字列をReaderから読み込むときにバッファリングしています。このバッファリングにて、特定のケースにて、想定していない場所を単語の切れ目と認識してしまう問題が実装上存在しました。 Issue32に記載した内容は次のようになります。

2012-06-06 by johtani

trunkのライブラリ差し替え（Lucene/Solr3.6.0）とランダムテストの失敗について(Jugemより移植)

久々にlucene-gosenを触っています。 trunkのlibにある、jarファイルが3.5ベースだったので、3.6ベースにしてテストをしたところ、いくつかある、ランダムテストで結果の不整合が検出されたので、調査していました。先程、trunkに対応版をコミットしました。もう少しテストケースを追加してからリリースします。おそらく、通常の使い方では問題無いと思います。

2012-06-05 by johtani