@johtaniの日記 2nd

@johtani ‘s blog 2nd edition

第11回Solr勉強会を主催しました。#SolrJP

不定期開催ですが第11回Solr勉強会を主催しました。

今回も大入り90人くらい?の参加者の皆さんがいらっしゃいました。ありがたいことです!(20時時点で最終的に補欠17人でした。)

とりあえず、第一報です。このあと懇親会なので。

ということで、帰りの電車でいくつか感想を(忘れちゃうから)。

小林さんの苦労話は細かいですが、結構はまりがちな点を共有していただいたので良かったかなぁと。 Solrのexampleの設定とか、ManifoldCFとかちょっとずつ罠があったりするので、あるあるネタはありがたいと思いますw

Cloudera Searchについては、安定の嶋内さんの喋りに圧巻でした。検索だけの視点とは異なる観点についての 話は私には足りないしてんだったりするので参考になります。 なんか、気づいたらMorphlineやスキーマ周りを調べてブログ書くことになっちゃったけど。。。 一つ質問しそこねたのがあって、Cloudera社は基本的に公開したOSSについてのトレーニングも立ち上げているイメージです。Cloudera Searchについてもトレーニングが立ち上がるのかなぁと密かに期待をしてみたり(予算の関係上参加できるかは不明ですが。。。)

牧野さんの話は画像系について、私は詳しくないので、また関口さんのalikeと比較とかしてもらえると面白いかなぁと。とりあえず、青いロボットがちゃんと検索できるようになるといいですねww

秀野さんの空間検索は緯度経度以外のPOLYGONなどを利用した検索で、実は私も知らない機能でしたw
なとなくは知ってたんですが、そこまでちゃんと検索できるとは!地図以外にも活用できるような気がします(想像つかないんだけど。。。)

最後は私の発表で、簡単な資料ですみませんでした。しかも発表よりも宣伝が。。。(ブログの宣伝だったりとか。。。) 最後に宣伝した「「ビッグデータ活用を支えるOSS」特集への論文投稿のご案内」もご検討ください!

懇親会も楽しかったです。また思いついたら開催しますー
最後に、今回の発表者の皆様、会場提供していただいたVOYAGE GROUPの皆様ありがとうございました!

以下はいつものメモです。

ManifoldCFのとSolrの組み合わせ(仮)株式会社 ロンウイット 大須賀さん

残念ながら、発熱のため発表は次回に持ち越しに。

社内ファイル及びWEBコンテンツの検索システム構築時に苦労したこと ソフトバンクBB㈱ 小林さん

  • ManifoldCF+Solrを使って社内ファイルの検索システム構築
  • 約1000万ドキュメント
  • さまざまなDCにドキュメントがある

クロールジョブのハング。。。

  • ログをDEBUGにしたら。。。ログファイル150GB。。。
  • 一定時間ごとにAgentをリスタートするバッチを。。。(力技)

MCFエラーによるジョブの停止

  • CONNECTORS-590
  • エラーが発生して止まったジョブを起動するバッチをcronで。。。

自作リアルタイムインデクシングの問題

  • MCF使わないでSlaveにインデックス
  • openSearcher=falseだとautoCommitが実行されてもSearcherを再起動しないので検索にでてこない

リプリケーションのNW負荷

  • 別DCからのレプリケーションが複数が一度に実施される→ネットワーク負荷が。。。
  • cronで別々にレプリすることでNW負荷を分散できてるかな。。。   

Cloudera Search 入門(仮) Cloudera 株式会社 嶋内さん

  • マサカリ画像がw
  • SolrのコミッターMark Millerさんもジョインしてる

ClouderaとHadoop入門とか。

  • いろいろあるよ、エコシステム
  • 4つの分類。
    • データの取り込み
    • データの保存
    • データの活用

Search

  • 検索エンジンなら数十億人が使い方を知ってる(Clouderaのチャールズ・ゼドルースキ)

Cloudera Search

  • Hadoopのためのインタラクティブな検索
  • CDHとSolrの統合
  • OSS!

  • 利点とか。

    • データ解析にも使えるよね、検索
    • 非構造化データの検索にもいいよね
    • 単一プラットフォームによるコスパ

Cloudera Searchの事例

  • バイオテクノロジー企業で画像検索とか
  • 医療系企業でいろんなログイベントの管理とか

Cloudera Searchのアーキテクチャ

  • Flumeでストリーミングで登録
  • HBaseデータの登録
  • M/Rでバッチ登録
  • HueのWebインタフェース

Morphlines、HBaseはLinyプロジェクトのもの

Solr使うならCDH!!

QA

  • Q:デモで使われたTwitterの検索のデータ料とかは?
  • A:デモ環境ですので小さい。

  • Q:スキーマってどうするの?

  • A:スキーマは。。。私が書こうかなぁ、ブログ。。。

コンピュータビジョン 株式会社 Curious Vehicle 牧野さん

  • 色々やってます
  • コンピュータビジョンの説明(某ネコ型ロボットのいろんな画像がw)

画像検索の流れ

  1. 特徴情報の抽出
  2. 特徴情報のクラスタリングによるword化
  3. Solrによる画像情報の検索
1. 特徴情報の抽出
  • SIFT特徴点解析
  • グレースケールしてからSIFT
  • 注意!SIFTは商用ライセンスが必要です
2. 特徴情報のクラスタリングによるword化
  • K-meansでクラスタリング
  • クラスタ情報をヒストグラム化してSolrへ
3. Solrによる画像情報の検索
  • 物体認識ベンチマークセット(ケンタッキー大)を使って。
  • やっぱり良し悪しある。データセットに特化したチューニングしてます。

つぎのステップ

  • 文字認識とか顔認識
  • つぎはドラえもんじゃねぇ、検索とかも。。。
ガウシアンによる画像ぼかしの例

QA

マイク回しててメモ取れず。。。

国土交通省のデータをSolrで検索 株式会社ネクスト 秀野さん

スライドはこちら

  • 評価の関係で。。。
  • Spatial検索の話

デモの想定機能

  • 地図上の小学校を起点に物件検索
  • 地図上をクリックしたところを中心に検索

デモ環境

  • Solr4.3.0、PostGIS 2.0.3、東京都のデータ

事前知識

  • ジオメトリーデータ(点、線、面がある)
  • WKB/WKT、Intersects(しらなかった。こんなのもあるのか)

環境

  • EC2上にPostGIS+Solrで構築
  • WKT形式でDIHでインポートできるらしい。
  • Solr+S3をJSでGoogleMapへ

Solr 4.4新機能をちょっと紹介 @johtani

紹介というよりも宣伝。。。

Comments