@johtaniの日記 2nd

@johtani ‘s blog 2nd edition

「よくわかるAmazon #CloudSearch 」に行ってきました!

どうやら、中身がSolrベース?Luceneベース?になったらしいということで、 今日は「AWSプロダクトシリーズ|よくわかるAmazon CloudSearch」に行ってきました。

※ElasticSearchではありません!

ということで、いつものメモ。

CloudSearch Overview

Amazon Web Services, Inc. Pravin Muthukumar(Product Manager) / Vivek Sriram (Business Development)

Introduction to Search

  • 検索の紹介。アイアンマンのDVD?のページにいろんな項目(フィールド)があるよねと。(もちろん、Amazonのページ)
  • ファセット、Geo、テキスト処理(Analysis処理)、Postings listとか。とかとか
  • ランキングも

Amazon CloudSearch

  • 独自実装orRDB拡張もある。
  • OSSもあるよね。
  • Legacy Enterprise SearchとしてFASTとかもある。

Building with CloudSearch

  • 他のサービス同様、コンソールとかあるし、色々できるし、すぐ起動できるよと。

自動で、データが増えたら、パーティションが増えると。

備えてる機能の説明

  • ファセット
  • SimpleQuery
  • Autocomplete
  • Highlight

などなど

  • Multi-AZにも対応

QA

  • Q:NGramありますか?
    • A:今はないです。
  • Q:ユーザ辞書対応してますか?
    • A:今はないです。
  • Q:lang-detectあるか?
    • A:今はないので、自分で判定して、適切なフィールドに入れてね。

Expectation for CloudSearch

Apache Solr contributor 大須賀 稔氏

  • Solr本の宣伝ありがとうございます!(右のアイコンから買ってもらえると更に嬉しいですw)
  • Kinesisとかとの組み合わせとか、自然言語処理とか、いろいろとあるAWSのコンポーネントと組み合わせる例が欲しいと。
  • すばらしい、最後はManifoldCFがらみに持っていくとは。ACLがらみのクローリングとかあるといいじゃないでしょうかと。

Impression of using CloudSearch

吉田 匠氏 (@yoshi0309 http://blog.yoslab.com/)

スライド:https://speakerdeck.com/yoshi0309/impression-of-using-cloudsearch

  • お見かけしたことある気がするなぁ。
  • 全部置き換えできる!わけではなさそう。。。

いいところ。

  • UIがいいし、セットアップが簡単
  • auto scaleがうれしい
  • マルチドメイン、マルチスキーマがいい
  • Luceneのdismaxサポートがいい。(edismaxじゃないのかな?)

dismaxって書いてあるな。

http://docs.aws.amazon.com/cloudsearch/latest/developerguide/search-api.html

  • フィードの仕方に気をつけて!

    • バッチサイズで課金されるので、1件ずつじゃなくて、複数件送ったほうがいい。
  • いきなりスケールアウトできるわけじゃない?

  • ウォームアップ機能がない。インスタンス上限がデフォルト50件

  • VPC対応してほしい。

    • インターネット経由になってしまう
    • フィードのスピードが
    • セキュリティグループ機能が使えない

CloudSearch UseCase - SnapDish

Vuzz Inc. 清田 史和氏

  • 独自辞書をもって、Tokenizeは独自でやって、空白区切りでデータ登録している。
  • インデックス更新はSQSを使ってる。
  • 古いAPIを使ってるらしい。
  • 移行が結構大変らしい。

感想

使ったことないんですが、きめ細かい検索したい場合はちょっとテクニックが要るかもと思いました。 AWS初心者なんで、なんとも言えないんですが。。。

といあえず、テキスト処理(アナライズ処理)で、単語がどうやって区切られるのかってのがわからないのはキツイんじゃなかろうかと。 ただ、簡単に起動できて、オートスケールできるのは素晴らしいと思います。

Comments