@johtaniの日記 3rd

@johtani's blog 3rd edition

MIR輪読会始めました(Jugemより移植)

Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition) (ACM Press Books) いやぁ、蒸し暑くてなかなか寝れない日がはじまりましたね。(あんまり関係ないですね。。。) Modern Information Retrieval 2nd Editionを輪読会という形で読み始めました。 Solrに関わって数年ですが、昔から検索をやっていたわけではありません。 なので、そろそろ基礎的、理論的なところも勉強して行かないとなと思い、この本を買いました。 ただ、約1000ページある英語の本でして。。。 一人で読むと間違いなく挫折するし、理解不能になりそうだなと。。。

lucene-gosenのLucene/Solr4.0-ALPHA対応(Jugemより移植)

Lucene/Solrの4.0.0-ALPHAが7/3にリリースされました。 これに伴い、lucene-goenの4xブランチのjarファイルも4.0-ALPHAのものに置き換え、現在のtrunkの修正もマージしました。 こちらにあります。チェックアウトしてビルドしてから利用してください。

Solr勉強会第8回に参加しました。 #SolrJP(Jugemより移植)

またまた参加しました。いまだ皆勤賞です。 感想などはあとで。とりあえず、メモとったので第一弾です。 ということで、感想です。 まずは、参加人数。 今回は今までで一番、ATND登録した人が多かったんじゃないかなぁと。 埋まるのも早かったですし。やっとSolrというキーワードが多くの方に触れられるようになってきたんですかねぇ。

Hadoopソースコードリーディング第10回に参加しました。#hadoopreading(Jugemより移植)

Hadoopからはちょっと離れているのに、面白そうなネタなので参加しました。 Data Science Summit、HBaseCon、Hadoop Summitのイベント参加レポートです。

lucene-gosenのUniDic対応(Jugemより移植)

Issue 32で上がってきたlucee-gosenのUniDic対応の最初のパッチを書いたので、ブログに残しておきます。 ###UniDicとは___ UniDicとは、日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 UniDicの詳細や特長についてはHPを御覧ください。 残念ながら、UniDicは利用者登録をして、利用規約に従うと利用が可能となります。 ですので、lucene-gosenでは、Ipadicやnaist-chasenの辞書とは異なり自動で辞書をダウンロードする機能はありません。

ZipkinのReadme読んでる(その2、残り)(Jugemより移植)

「鉄は熱いうちに打て」ということで、残りも勢いでメモ。 まだ、見直しとかしてない状態なのでおかしいところとかありますが。。。 図とか入れるのはまた今度。

ZipkinのReadmeを読んでる(クライアント周りについて)(Jugemより移植)

ZipkinのGithubにあるReadmeを読んでます。 せっかくというか、頭が悪いので読みながら内容をメモ。 まずは、アーキテクチャとトレースデータ送信のためのクライアント側あたりです。 (誤訳とかおかしいだろというツッコミ大歓迎です。) あとで、リンク貼ったり絵を入れたりするかもしれませんが、とりあえず。

autoGeneratePhraseQueriesのデフォルト値について(Jugemより移植)

久々にSolrの話です。 といっても、結構前からの話でして。。。 schema.xmlのfieldTypeの設定に「autoGeneratePhraseQueries」という属性があります。 Solr3.1で導入されました。動作に関しては関口さんのブログで説明されています。 Solr 1.4までは、Analyzerがトークンを複数返してくる場合(例:lucene-gosenで「Solr入門」という文字列を入れた場合など)にフレーズクエリとして処理していました。 Lucene 3.1.0から、この処理がデフォルトfalse(つまり、フレーズクエリにならない)という挙動になりました。(詳しくは関口さんのブログで。) ただ、Solr 3.1.0では、下位互換性を考慮して、autoGeneratePhraseQueriesの設定値はデフォルトが「true」でした。

Twitterが公開した分散トレーシング(追跡?)システム、Zipkin(Jugemより移植)

すでに読まれた方もいるかも知れませんが、気になったのでメモを書いてみようかと。 先週の木曜日にTwitterのエンジニアブログでZipkinというOSSを公開したという記事がでました。 非常に興味深いシステムだったので、ちょっとずつ読み解いていきたいなという宣言(というか、ハッパをかけてもらうため)も兼ねて、まずはブログの内容をメモ程度に残しておきます。

lucene-gosen 2.0.2リリース(リソース周りの改善など)(Jugemより移植)

lucene-gosenの最新版(2.0.1)をリリースしました。 プロジェクトページよりダウンロードが可能です。 今回の修正では、@haruyama さんからいただいていたパッチの取り込み(リソース周りの改善など)が主な対応となっています。 また、コンパイルに利用するjarファイルがLucene/Solr3.6.0に変更になっています。(Issueはこちら) 3.6.0から追加されたテストケースにて、発生する問題への対処も施したものとなっています。