@johtaniの日記 3rd

@johtani's blog 3rd edition

Issue32について(4096の壁)(Jugemより移植)

昨晩に引き続き、情けない内容のブログになってしまいますが。。。 昨晩、書いた記事の調査をしていた時に気づいた、問題になるケースがあったので調査をしていました。 Issue32に登録した内容になります。 拙い英語を振り絞って書いた英語なので、伝わらないかもしれないのでブログに残しておきます。 昨晩の問題点となったクラス(StreamTagger2.java)の内部処理についてです。 lucene-gosenのLucene向けのTokenizerの内部処理では入力文字列の処理を行うのに、「char buffer[]」を用いて 入力文字列をReaderから読み込むときにバッファリングしています。 このバッファリングにて、特定のケースにて、想定していない場所を単語の切れ目と認識してしまう問題が実装上存在しました。 Issue32に記載した内容は次のようになります。

trunkのライブラリ差し替え(Lucene/Solr3.6.0)とランダムテストの失敗について(Jugemより移植)

久々にlucene-gosenを触っています。 trunkのlibにある、jarファイルが3.5ベースだったので、3.6ベースにしてテストをしたところ、 いくつかある、ランダムテストで結果の不整合が検出されたので、調査していました。 先程、trunkに対応版をコミットしました。もう少しテストケースを追加してからリリースします。 おそらく、通常の使い方では問題無いと思います。

オープンソースへの貢献のススメ(Jugemより移植)

録画してたEテレのスーパープレゼンテーションを見ててふと書きたくなったので、書いてます。 あとから読んだら恥ずかしくなりそうだけど。。。 「“知力の余剰"が世界を変える」というClay Shirkyさんの話を見て思ったことです。 社会的に貢献できる仕組みが最近増えているという話の内容でした。そこで、OSSについても同じことが言えるよなぁと思った次第でして。

JJUG CCC 2012 Springに参加してきました。(Jugemより移植)

JJUG CCC 2012 Springに参加してきました。 昨年のFallに続き、2回目です。 概要や、タイムテーブルはこちらを御覧ください。 今回は、午後一から参加しました。 色々と迷いましたが、つぎのを聞いて来ました。

PlayFramework 2.0(Javaの方)を触ってみてる(Jugemより移植)

PlayFramework2.0を触ってみてます。 ちょっとコーディングしたくなったのと、最近のアプリの作成の調査も兼ねて。 まぁ、せっかくなので、Solr検索のアプリでも作ってみようかと言うことで触ってます。 ただ、Solr検索アプリでしかなく、今のところDBを使わないので、実はPlay Frameworkじゃなくてもいいのではないかという疑問も。。。

lucene-gosen 2.0.1リリース(Java7対応)(Jugemより移植)

lucene-gosenの最新版(2.0.1)をリリースしました。 プロジェクトページよりダウンロードが可能です。 今回の修正では、Java7でUnicodeのバージョン変更に伴う対応(詳細はこちらを参照)を行なっています。 リソース周りの対応はまた後日。。。すみません。2012/05/16 遅くなりましたが、昨晩、JavaDocをアップしました。

「IDの秘密」を読みました。(Jugemより移植)

IDの秘密 (丸善ライブラリー―情報研シリーズ) 非常に面白く読めました。 バーコードの話に始まり、最後はシステムで付与するIDに関する考慮点まで幅広くIDについて語られています。

Heroku JP Meetup #4に参加しました。#herokujp(Jugemより移植)

WebSolrの話があるらしいというのを嗅ぎつけて、初めてHeroku JP Meetupに参加しました。 herokuもWebSolrも知りつつ、手を出していなかったので、いい機会でした。 (SignUpだけ、勉強会直前に済ませましたw)

Solr 3.6.0のCJKの設定とSynonymFilterFactoryの気になる点(Jugemより移植)

先日、Solr入門のサンプルschema.xmlの3.6.0対応版の作成をしていて、気になったことがあったので、 メモとして残しておきます。 SynonymFilterFactoryの属性「tokenizerFactory」に関連する話です。 (「Apache Solr入門」の36-37ページに記載があります。)

「Apache Solr入門」のサンプルのKuromojiとlucene-gosen対応(2章~4章)(Jugemより移植)

先日の続きです。「Apache Solr入門」の2章から4章の説明について、Solr3.6.0で動作させる時の変更点を以下に書いていきます。 なお、前回も説明しましたが、3.6.0からKuromojiという形態素解析器がSolrに同梱されるようになりました。 これから説明する2章の変更点の手順ですが、Kuromojiとlucene-gosenそれぞれの利用方法について説明します。 添付のschema.xmlについては、基本的にKuromojiを利用する形に変更してあります。 それに加えて、lucene-gosen用のフィールドを別途追加で定義しました。 これらのフィールド名については、次の表の用になります。 適宜、書籍のフィールド名と置き換えながら読み進めたり、試したりしてください。