@johtaniの日記 3rd

@johtani's blog 3rd edition

Hadoopソースコードリーディング第7回に参加しました。(Jugemより移植)

Hadoopソースコードリーディング第7回に参加しました。 いつものごとく、自分用のメモをとっていたので。 第6回(2010/12)には参加してたのですが、あれからそういえば、話が無いなぁと思っていたところに 再開するという話がTwitterに流れてきたので、即申し込みしました。 思い返せば、Hadoopに興味をもって少し触っているところで参加したのだったなぁと感慨深い思いを思い出しました。

「Apache Solr入門」のサンプルのlucene-gosen対応(1章から4章)(Jugemより移植)

先週末から勤労感謝の日まで風邪で寝こんでました。。。 みなさん、朝晩、冷え込みが激しいので風邪には気をつけてください。 季節の言葉も入れたので本題です。 つい最近、「Apache Solr入門」のサンプルをlucene-gosenでどうやって動かすんですかー?という質問を受けました。 確かに、「Apache Solr入門」を書いたのはSolrのバージョンが1.4が出る直前でしたし、lucene-gosenは存在せず、 当時はSenを元にした日本語の形態素解析のサンプルとなっていました。 そのSenも入手しづらくなってきており、私もlucene-gosenのプロジェクトに携わるようになってきてある程度時間が 経ちました。 せっかくなので、サンプルのschema.xmlだけでも最新版(Solr 3.4 + lucene-gosen-1.2.0-ipadic)のものを用意しました。 なお、あくまでも、3.xでlucene-gosenを利用する場合の「Apache Solr入門」のサンプルプログラムの変更点(とりあえず、4章まで)の違いについて記述します。 申し訳ございませんが、1.4と3.xの違いについての説明はここでは行いません。

MongoDB勉強会(第7回)に行って来ました。(Jugemより移植)

今回は、触ろうと思って触れていないMongoDBの勉強会に行って来ました。 2週連続の渋谷で、さすがに今回は出口をすんなりでれました。 今回は初のGMOさんのビルへの潜入です。 ということで、いつものごとく自分のメモを残しておきます。

Splunk Live!のイベントに行って来ました。(Jugemより移植)

Solr本の武田さんから教えていただいたSplunkの イベントに行って来ました。 Splunkとは様々な機器のログなどを一箇所に集めてリアルタイムに検索、分析できるようにするための製品です。(ざっくりした説明ですが。。。) ちなみに、データ量が小さければフリー版も用意されています。 以前、話しを聞いていて気になっていた所イベントが開催されるということだったので参加してきました。 以下に、その時取ったメモを記載しておきます。いつものごとく、自分用のメモなので、役に立つかはわかりませんが。

Lucene Eurocon 2011 Barcelona のスライド読みました(Jugemより移植)

最近忘れやすいので、記録しておこうかと。 読んだスライドの簡単な内容と感想です。 ちなみに、スライドの一覧はこちらです。 ※スライドへのリンクはすべてPDFへのリンクになっていますので、注意が必要です。 Solr 4 Highlights(PDF)

Bookscanを使ってみました(Jugemより移植)

Bookscanというサービスがあります。 書籍を電子化(PDF)して原本を破棄してくれるサービスです。 電子書籍にはずっと興味を持っていました。 技術書を購入するのですが、技術書は300ページ超の大きな書籍が大半です。 また、日本語の技術書については、なかなか電子書籍が見つからないもしくは、電子化されるのが遅いとうのが現状です。 海外では、Manningなど、電子書籍も同時に発売(もしくは、製本前から電子書籍が売られている)サイトがありますが、やはり英語の書籍はハードルが高いなぁと。

1.2.0リリース(Jugemより移植)

lucene-gosenの最新版(1.2.0)をリリースしました。 プロジェクトページよりダウンロードが可能です。 新規追加機能についてはこちらのエントリを御覧ください。 バグなどありましたら、容赦なく報告をいただけると助かります。

辞書の外部化とLucene/Solr3.4対応(Jugemより移植)

すぐやりますと言いつつ、はや1ヶ月。。。 腰が重い、ダメエンジニアですね。。。 すみませんでした。。。 ようやくtrunkにコミットしました。 すぐにリリース版を用意すると思います。 1ヶ月もあいてしまったので、追加した機能に関するまとめと、 用途別の利用方法を記載しておきます。 (lucene-gosenのWikiにもそろそろ書かないとなぁ。日本語でもいいから。)

JJUG CCC 2011 Fallに参加してきました。(Jugemより移植)

JJUG CCC 2011 Fallに参加してきました。 個人的にはかなり久々のJavaのカンファレンスです。(※あくまで「Javaの」という話で。SolrやHadoopとは別という意味です。)

lucene-gosenで文章からキーワード抽出(イレギュラー?)(Jugemより移植)

昨日、文章から特定の単語(リストあり)を探したいという話を聞き、lucene-gosenでもできるねぇという話になりました。 まぁ、考えてみればごくごく当たり前なのですが。。。(その筋の方たちにしてみれば常識なのかもしれないですが。。。) 一応やってみたので、こんなこともできるなという一例ですということで、記録を残しておきます。