Berlin Buzzwordsにオンライン出張してた

Posted by johtani on Monday, July 6, 2020

目次

6月7日の週に開催されたBerlin Buzzwordsにオンライン出張してました。

Berlin Buzzwordsとは?

ベルリンで開催されている、Big Data、Scarability、Storage and Searchabilityに関するカンファレンスです。 今年はコロナウイルスの影響で、オンラインで開催されました。 また、同時期に検索に関する他のカンファレンス(以下の2つ)もベルリンで毎年開催されているのですが、今年はこれら3つのカンファレンスが1つのチケットで参加できる形で開催されました。

  • MICES - MIX-CAMP E-COMMERCE SEARCH
  • HAYSTACK - The Search Relevance Conference! sponsored by OpenSource Connections

MICES、HAYSTACKは初参加ですが、検索に関するいくつかのトピックが聞けたので楽しかったです。

6/7から6/12まで(がんばって)参加したので、その感想などをブログにとどめておきます。

オンラインってどんな感じで開催されてた?

まずは、オンライン開催がどのような感じだったのかをメモしておきます。

  • 有料のオンラインカンファレンス(事前にチケット購入が必要)
  • 参加者用Slack
    • カンファレンス数日前まではここで連絡とか質問が可能だった(もちろん、メールも来ましたけど)。
  • 基本的なプラットフォームはBrellaのバーチャルイベントプラットフォーム
    • 参加者同士のSNS機能 - 参加者同士の興味によって参加登録時に似たような人ですよとマッチングしたり。ビデオチャット機能もあり。
    • カンファレンスのスケジュール確認 - セッションのスケジュールの他に、参加者同士でのチャットのスケジュールも可能。一番便利だったのは自分のタイムゾーンも表示してくれること
    • ストリームチャネル - セッションが行われている場所への誘導
    • スピーカー・スポンサーのリスト - スピーカーやスポンサーを探せる機能。スポンサー企業からは参加者も見ることができる
  • セッションはYouTubeライブ
    • ストリーム中だったらちょっと戻ったり、ポーズもできるので、便利だった
  • セッション後の質疑応答にはJitsiというオープンソース!?のビデオカンファレンスの部屋が用意されてた(GitHubで公開されてるのか。https://github.com/jitsi)。
  • 2日目、3日目はLTとかが終わったあとに、オンライン飲み会やってたっぽい(不参加)

主催者側も初めてだとは思うのですが、目立ったトラブルはなかったです。 ちょっとだけ遅れたりしてましたが、それほど影響はなかったです。 オンラインでの開催の一番のネックは、日本だと時差が辛いということです。 ベルリンが開催地なのですが、スピーカーや参加者はアメリカからの方が結構います。 そのため、開始時間が日本の23時といった具合になりました。

面白かった&気になったセッション

いくつか面白かった&もう一度見ないとなと思ったセッションと感想を。

Natural Language queries at Salesforce scale

Salesforceでどのような自然言語のようなクエリに対して書き換え、サジェストのようなことをやっているか?という話です。 Salesforceはテナント(企業)ごとに、データ構造などがカスタマイズ可能なため、 それぞれ個別に入力クエリ(例: new leads in sf)に対して、どういったパーツ(時間?場所?状態?)なのか?、どのフィールドへの条件なのか?といったものをNERのディープラーニングモデルとして捉えて解析しているという話でした。 企業毎にパーソナライズもされていると。実際にはパイプラインの一部でこの処理をやっており、それ以外にも処理はされているという話もありました。評価の話もされています。

ManningでMEAP(絶賛書いているところ)のAI-Powered Searchの著者2名がAMA形式でいろんな質問に答えていく感じのやつです。 最初は近況報告(Treyさんがカンファレンス直前に転職してた)と、書籍がどんなものかを簡単に紹介したあと、質問に答えていく形式で2時間あります。ディープラーニングのモデルに関する話なども出てきています。 もう一度見たいと思ってたやつなので見ないとな。。。 (パネルっぽいセッションは、ヒントがなにもないので結構辛い)

Ask Me Anything: Lucene 9

LuceneのPMCメンバーのUweさんが今後のLucene/Solrのいくつかの質問に答える感じのAMAです。 出てきた話(質問の前の)としては、Lucene 8の現状(Bloc-Max WANDとか)や、Java 11対応になるよとかです。 QAでは、SIMDの話、Approximate Nearest Neighborがどんな感じか?などの話でした。

カルフールスペインがECの検索をどのように導入したかという概要レベルの話でした。 モノリシックなものをマイクロサービスでk8s上に載せ替えたという大きなアーキテクチャ以降の話です。 Empathy.coが提供しているものを最終的には使用したみたいだけど、 どんな検索がされているのかといったニーズの調査ができるようになり、検索に絡んだKPIが改善した話でした。 COVID-19に絡んだクエリの変化についてもちょっと話が出てました。

Neural Search in Practice

Zalandoの検索の一部でNIR(Neural IRモデル)を利用してクエリの改善をやって、それをどうやってトレーニングして、テストしたかなどの話。 NIRを利用することで、複数の言語に対して改善が見られたという話だった。 今までは、クエリをいくつかの処理を元に翻訳して、入力された単語がカテゴリーに対するものなのか、スタイルに関するものなのか?などを判別して、クエリの補強?を行っている手法だった。 これに対して、ディープラーニングでクエリに対するクリックデータを元にトレーニングして、どういうクエリに対してどんなアイテムを出すのか?というモデルで検索を改善していた。 ヒット件数が0件だったり少ないものを対象にして上記の処理を入れているらしい。 (ということで、ディープラーニングをしっかり勉強しないといけないみたいなので、どうにかしたい。。。)

Top 10 Lessons learned in search projects the past 10 years

10年検索プロジェクトをやってきた10個の気づきという感じのセッション。 ごく当たり前のことなんだけど、検索の導入・改善に関して、こういう事あって、何も考えないとこうなっちゃうよね。 だから、こんなことをやるべきだよね?という話です。 たとえば、検索窓はあるけど分析すらしていない状況(レッスン1)だとまずはこういうのやらないとね。とか、 検索クエリの分析・改善ばかりして、コンテンツの分析・改善を怠っていないか?という当たり前の話です。 当たり前なんだけどまとめてくれてるのは、やはりいいなぁと。

Click logs and insights: Putting the search experts in your audience to work

検索ログとクリックログがあったときに、どういったことに使えるのかを料理のレシピに見立ててデモをするセッションで説明が面白かったです。 「こんなログがあったときに、ログのこの項目とこの項目を材料にすると、こんなのができますね」というのを、Elasticsearchにログを取り込んで、JupyterNotebookでデモをしていました。やはり動くものがあるとわかりやすいですねぇ。

Mixing and Matching: Diversifying Search Results

これまたパネルセッションです。 検索結果の多様性に関するディスカッションでした。 これは、ECだからこその課題でもあるのかなと。検索自体は「何かを見つける」ための手段です。 普通に考えた場合は、ピンポイントで探していたものが見つかるのが嬉しいです。 が、例えば、ユーザーが検索した単語そのものが入っているだけのものが見つかるよりも、似たような商品も一緒に出てきてほしいことありますよね?また、ECサイトだと、回遊してほしいというのもあります。ということで、それぞれの方がどんな観点で多様性を考えているのかという話をするディスカッションになっていました。

AI-Powered Searchの著者の一人、Treyさんのセッション。ベクトルを検索にどうやって使うのか、 ベクトルで表現できるものはどんなものがあるのか?どんな検索エンジンで使えるのか?という話でした。 歴史的な話も交えつつ、検索だとこのへんで使えるんじゃないか?というような話でした。

録画は?

気になったセッションをいくつか書き出してみました。 ちなみに、全セッションのビデオが公開されています。興味がある方は、ご覧いただければと。

感想そして来年は?

楽しかったです。検索に関する話が色々聞けるのはやっぱ楽しいですね。サイトの特性(ECなのか、Wikipediaなのかなど)によっても「良い検索」の定義も変わるので、サービスなどがどんなものか、そしてそれを良くするためには検索はどんなことができるのか?といった話や、技術的な濃い話までいろいろな話を聞けました。 ただ、パネルは英語の聞き取りが辛いですね。。。あと、時差が。日本にいながらにして時差ボケは辛い。。。 オンライン飲み会には流石に参加できませんでした(4時とか5時から始まるし)。

来年もオンラインで開催されたら間違いなく参加します。 オフラインのみだった場合はどうなるかなぁ。。。


comments powered by Disqus

See Also by Hugo


Related by prelims-cli