目次
このイベントにウチダスペクトラムの枠でMahoutのコミッターである、Grant Ingersollさんが講演されるということで、興味があったので聞いて来ました。 (この枠だけ)
LucidWorks社が現在展開している、LucidWorks BigDataの概要とコンセプトといった話の内容でしょうか。 LucidWorks社(元Lucid Imagination)はLucene/Solrのコミッターの方々が多く在籍している会社です。 検索システムに関するノウハウを元に、発見や解析といった部分にニーズが広がってきているという話の ざっくりした概要のはなしでした。 検索システムを中核にして、ログや検索で提供しているデータの解析などの重要そうなポイントが散りばめられて いるお話でした。
もっと詳しい話を聞きたいなぁ。
講演では日本語の資料でしたが、サイトに英語の資料がアップされているとのことでした。 原文が読めるのは非常に助かります。他のイベントなどでもこのように英語の資料も見れるようになると嬉しいです。
以下は、いつものメモになります。
場所:富士ソフト アキバプラザ5Fホール
日時:16:10-
◯サーチ技術による情報の可視化
通常、検索と言うとWebサーチだけど、ウチダスペクトラムのやっている部分はエンタープライズ向け
ナイスガイ=Grant S. Ingersollという紹介
◯サーチからSDAへ
LuceneやSolrのお陰で、検索自体は簡単になってきている。
◯サーチの進化
ユーザとデータを結びつける意味での検索の進化が必要
ユーザインタラクションや、アクセスの方法とか
◯SDA
Search, Discovery and Analytics
・ユーザからのニーズ
検索、優先順序付け、新たな気づき、フィードバックによる学習
・ビジネスからのニーズ
ナレッジの有効活用
◯ユーザ事例
保険会社での請求に関する不正利用分析を含んだクレーム処理と分析
◯事例:個人に最適化された医薬品
DNAをベースに検索やファセットで医薬品を検索したり。
◯事例:通信会社における通話記録処理
ログを元に検索して、不正通話などを解析
◯SDA基盤に必要な要素
高速で拡張性のある、検索
大規模でのコスト効率が高いストレージと処理
NLPとMLにより解析などが向上
◯SDAのアーキテクチャ
基盤
LucidWorks Search、Hadoop、HBase、ApachePig、Mahout、
NLP、
管理
Zookeeper
インフラ
ZABBIX、AWS、Chef
データの流し込み
Twitterからのデータとか
◯検索部分にフォーカス
・LucidWorks Search
SolrCloudによる簡単なshard処理
・Hadoop
ログ、生データ、中間ファイルの保存
WebHDFS
小さなファイルには向いていない
・HBase
メトリック、ユーザ履歴などのストレージ
課題
どこに正式に保存する?
リアルタイム処理 vs バッチ処理
分析はどこで行われるべきか?
◯検索の実装に関連すること
3つのポイント
性能と拡張性
関連性
オペレーション(モニタリング、フェイルオーバーなど)
ビジネス側では検索結果の適合性を重要視する
開発側は性能を重視する傾向がある。
◯適合性に関して
テストが重要。
クエリ、クリック、表示したドキュメントなど、すべて保存すべき!
◯Discoveryにフォーカス
◯MahoutによるDiscovery
3つのC
・協調フィルタリング
・クラシフィケーション
・クラスタリング
追加事項
課題
収束を伴う計算コストの高い機械学習アルゴリズム
Mahout
◯余談:Experiment Management
◯Analyticsにフォーカス
Rとか、うまく活用
検索エンジン自体でもできることがある。ファセット、TF、DF/IDF
SearchとDiscoveryの定量化
ログ、ナビゲーション分析
comments powered by Disqus
See Also by Hugo
- 第11回Elasticsearch勉強会を開催しました。#elasticsearchjp
- PFIオープンセミナー2012に参加してきました。 #pfiopen2012(Jugemより移植)
- 今年の振り返りと来年の抱負(2014)
- エンジニアのためのスキルアップ勉強会『Tech Compass』@竹橋 ― Vol1 「スマホ時代到来、この先生きのこるエンジニアとは!?」に参加しました。#tecomp(Jugemより移植)
- モーショノロジー2012#1に参加しました。(Jugemより移植)