@johtaniの日記 3rd

@johtani's blog 3rd edition

第2回elasticsearch勉強会を開催しました! #elasticsearchjp

第2回を開催しました! すごい、140人くらいくらいの参加登録者(参加者は100人ちょっと!)がいて、びっくりです。 ステキな会場を提供していただいた、リクルートテクノロジーズさん、運営していただいた方々、スピーカーの皆さん、参加者の皆さん本当にありがとうございました。 今回も素敵な看板ありがとうございます。

elasticsearch-extended-analyzeの改良

開発中ですと書きました、elasticsearch-extended-analyzeですが、改良しました。 改良と変更は以下のとおりです。 ソースのパッケージをorg.elasticsearchからinfo.johtaniに。MLで気になったので質問したら、変えたほうがいいよとのこと。ダウンロード化については、もう少々お待ちを。 出力形式を変更。可能な限りCharFilter、Tokenizer、TokenFilterそれぞれが出力する内容を返すようにしました。 ただし、既存のAnalyzer(JapaneseAnalyzerクラスとか)に関しては、現時点では出力しません。CharFilterなどを取得するI/Fが見えないためです。(改良できるかの調査は未着手) 現時点でできてないのは以下の項目

elasticsearch-extended-analyzeプラグインを開発中

お久しぶりです。 気づいたらまた、結構ブログを書いてなかったです。。。 今回は、今開発しているElasticsearchのプラグインに関するお話です。

elasticsearch-inquisitorプラグインの紹介

今日は、ElasticSearchのMLで見つけたelasticsearch-inquisitorプラグインの紹介です。 ElasticSearchはREST API形式で簡単にコマンドラインからいろいろな処理を実行できて便利ですが、 GUIがあったほうが楽なこともまた事実です。 今回紹介する、inquisitorプラグインもSiteプラグイン(Webブラウザでアクセスできるプラグイン)の1つです。 (ただし、ローカルにインストールしてローカルのElasticSearchにしか接続できませんが。。。)

elasticsearch-river-wikipediaの疑問点

river-wikipediaの前々回の記事で書きましたが、bulk_sizeに関連して登録件数がやけにきりが良いのが気になると書いていました。 で、Riverの仕組みを勉强がてら、elasticsearch-river-wikipediaのソース(1.2.0)を読んでみました。 Riverの作り Riverはorg.elasticsearch.river.Riverというinterfaceを実装することで作らています。 ただ、Riverがinterfaceとなっていますが、o.e.river.AbstractRiverComponentというクラスを継承して作られています。

日本語Wikipediaをインデクシング(Kuromojiバージョン)

前々回紹介した、日本語Wikipediaのデータをインデックス登録する記事の続きです。 今回は、Kuromojiのアナライザを利用してインデックス登録してみます。 余談(Proxy環境でのプラグインインストール) ElasticSearchのpluginコマンドはJavaで実装されています。(org.elasticsearch.plugins.PluginManager) プラグインのダウンロードには、java.net.URL.openConnection()から取得URLConnectionを使用しています。

第1回ElasticSearch勉強会を開催しました! #elasticsearchjp

ElasticSearch勉強会 第1回を主催しました。 昨年のpyfesでなんちゃって資料で喋って、1年たちました。 ElasticSearchの書籍(英語)も出てきて、今年はElasticSearchが面白くなりそうだし、使ってる人たちから話も聞きたいなぁということで、主催しました。

ElasticSearchにプラグインで日本語Wikipediaデータを入れてみました

久々のブログはElasticSearchネタです。勉強会開催する予定だったりすので、もう少し触っておきたいなと。 お手軽に検索するデータとして、よくWikipediaのデータを使っています。 ElasticSearchにはelasticsearch-river-wikipediaという便利なプラグインがあり、Wikipediaのデータを簡単に検索可能な状態にできます。このRiverを利用して日本語のWikipediaのデータを入れたので、メモを取っておきます。 まずは、river-wikipediaで日本語のデータをインデクシングしてみるまでの説明です。 日本語特有の設定(Kuromojiを利用したインデクシング)などはまた後日。

Kibana3というのもありまして

前回は3番煎じぐらいでしたが、今回は初記事かな?(だといいな) Kibanaには、前回の記事で書いたものとは別に開発中のKibana3というのが存在します。 Kibana3って? Kibana2はRubyで書かれていましたが、Kibana3はHTML+JavaScriptで構成されています。 ですので、ApacheなどのWebサーバに配置することで、利用が可能となります。 ただ、HTML+JavaScriptのため、ブラウザ上で動作するためブラウザが動作するマシンからElasticSearch(通常だとhttp://マシン名orIPアドレス:9200/とか)にアクセスできなければいけないという制限があります。

apache-loggen + fluentd + elasticsearch + kibana = ログ検索デモ

もう何番煎じだ?ってくらい書かれてますが、コリもせず書いてみました。 Elasticsearch+Kibanaの環境を作って、タムタムさんのログ生成ツールからApacheのダミーログを流しこんで入れてみました。