目次
不定期開催ですが第11回Solr勉強会を主催しました。
今回も大入り90人くらい?の参加者の皆さんがいらっしゃいました。ありがたいことです!(20時時点で最終的に補欠17人でした。)
とりあえず、第一報です。このあと懇親会なので。
ということで、帰りの電車でいくつか感想を(忘れちゃうから)。
小林さんの苦労話は細かいですが、結構はまりがちな点を共有していただいたので良かったかなぁと。 Solrのexampleの設定とか、ManifoldCFとかちょっとずつ罠があったりするので、あるあるネタはありがたいと思いますw
Cloudera Searchについては、安定の嶋内さんの喋りに圧巻でした。検索だけの視点とは異なる観点についての 話は私には足りないしてんだったりするので参考になります。 なんか、気づいたらMorphlineやスキーマ周りを調べてブログ書くことになっちゃったけど。。。 一つ質問しそこねたのがあって、Cloudera社は基本的に公開したOSSについてのトレーニングも立ち上げているイメージです。Cloudera Searchについてもトレーニングが立ち上がるのかなぁと密かに期待をしてみたり(予算の関係上参加できるかは不明ですが。。。)
牧野さんの話は画像系について、私は詳しくないので、また関口さんのalikeと比較とかしてもらえると面白いかなぁと。とりあえず、青いロボットがちゃんと検索できるようになるといいですねww
秀野さんの空間検索は緯度経度以外のPOLYGONなどを利用した検索で、実は私も知らない機能でしたw
なとなくは知ってたんですが、そこまでちゃんと検索できるとは!地図以外にも活用できるような気がします(想像つかないんだけど。。。)
最後は私の発表で、簡単な資料ですみませんでした。しかも発表よりも宣伝が。。。(ブログの宣伝だったりとか。。。) 最後に宣伝した「「ビッグデータ活用を支えるOSS」特集への論文投稿のご案内」もご検討ください!
懇親会も楽しかったです。また思いついたら開催しますー
最後に、今回の発表者の皆様、会場提供していただいたVOYAGE GROUPの皆様ありがとうございました!
以下はいつものメモです。
ManifoldCFのとSolrの組み合わせ(仮)株式会社 ロンウイット 大須賀さん
残念ながら、発熱のため発表は次回に持ち越しに。
##社内ファイル及びWEBコンテンツの検索システム構築時に苦労したこと ソフトバンクBB㈱ 小林さん
- ManifoldCF+Solrを使って社内ファイルの検索システム構築
- 約1000万ドキュメント
- さまざまなDCにドキュメントがある
クロールジョブのハング。。。
- ログをDEBUGにしたら。。。ログファイル150GB。。。
- 一定時間ごとにAgentをリスタートするバッチを。。。(力技)
MCFエラーによるジョブの停止
- CONNECTORS-590
- エラーが発生して止まったジョブを起動するバッチをcronで。。。
自作リアルタイムインデクシングの問題
- MCF使わないでSlaveにインデックス
- openSearcher=falseだとautoCommitが実行されてもSearcherを再起動しないので検索にでてこない
リプリケーションのNW負荷
- 別DCからのレプリケーションが複数が一度に実施される→ネットワーク負荷が。。。
- cronで別々にレプリすることでNW負荷を分散できてるかな。。。
Cloudera Search 入門(仮) Cloudera 株式会社 嶋内さん
- マサカリ画像がw
- SolrのコミッターMark Millerさんもジョインしてる
ClouderaとHadoop入門とか。
- いろいろあるよ、エコシステム
- 4つの分類。
- データの取り込み
- データの保存
- データの活用
Search
- 検索エンジンなら数十億人が使い方を知ってる(Clouderaのチャールズ・ゼドルースキ)
Cloudera Search
-
Hadoopのためのインタラクティブな検索
-
CDHとSolrの統合
-
OSS!
-
利点とか。
- データ解析にも使えるよね、検索
- 非構造化データの検索にもいいよね
- 単一プラットフォームによるコスパ
Cloudera Searchの事例
- バイオテクノロジー企業で画像検索とか
- 医療系企業でいろんなログイベントの管理とか
Cloudera Searchのアーキテクチャ
- Flumeでストリーミングで登録
- HBaseデータの登録
- M/Rでバッチ登録
- HueのWebインタフェース
Morphlines、HBaseはLinyプロジェクトのもの
Solr使うならCDH!!
QA
-
Q:デモで使われたTwitterの検索のデータ料とかは?
-
A:デモ環境ですので小さい。
-
Q:スキーマってどうするの?
-
A:スキーマは。。。私が書こうかなぁ、ブログ。。。
コンピュータビジョン 株式会社 Curious Vehicle 牧野さん
- 色々やってます
- コンピュータビジョンの説明(某ネコ型ロボットのいろんな画像がw)
画像検索の流れ
- 特徴情報の抽出
- 特徴情報のクラスタリングによるword化
- Solrによる画像情報の検索
1. 特徴情報の抽出
- SIFT特徴点解析
- グレースケールしてからSIFT
- 注意!SIFTは商用ライセンスが必要です
2. 特徴情報のクラスタリングによるword化
- K-meansでクラスタリング
- クラスタ情報をヒストグラム化してSolrへ
3. Solrによる画像情報の検索
- 物体認識ベンチマークセット(ケンタッキー大)を使って。
- やっぱり良し悪しある。データセットに特化したチューニングしてます。
つぎのステップ
- 文字認識とか顔認識
- つぎはドラえもんじゃねぇ、検索とかも。。。
ガウシアンによる画像ぼかしの例
QA
マイク回しててメモ取れず。。。
国土交通省のデータをSolrで検索 株式会社ネクスト 秀野さん
- 評価の関係で。。。
- Spatial検索の話
デモの想定機能
- 地図上の小学校を起点に物件検索
- 地図上をクリックしたところを中心に検索
デモ環境
- Solr4.3.0、PostGIS 2.0.3、東京都のデータ
事前知識
- ジオメトリーデータ(点、線、面がある)
- WKB/WKT、Intersects(しらなかった。こんなのもあるのか)
環境
- EC2上にPostGIS+Solrで構築
- WKT形式でDIHでインポートできるらしい。
- Solr+S3をJSでGoogleMapへ
Solr 4.4新機能をちょっと紹介 @johtani
紹介というよりも宣伝。。。
comments powered by Disqus
See Also by Hugo
- Bonfire Data & Science #1に参加しました
- 第12回Solr勉強会を主催しました。#SolrJP
- Riak Meetup Tokyo #2に参加しました。#riakjp
- MorphlinesのloadSolrをちょっとだけ調べてみた
- Cloudera Searchメモ(妄想版)