Conference on @johtaniの日記 3rd

今年もオンラインでBerlin Buzzwordsに参加した

Wed, 21 Jun 2023 01:30:45 +0900

今年もこの季節がやってきました。 Berlin Buzzwordsにオンラインで出張してました。今年もハイブリッド開催をしてくれたので、オンラインで参加できました。現地ではブースが出たり、朝食なども用意されているようでした。今年は昨年と違いマスク必須でもなくなったようです。 MICESも去年同様、現地開催のみのようです（今見たら、昨年のビデオとスライドが公開されてるので、時間見つけてみてみよう）。

今年はうれしいことに検索に絡むセッションが大多数でした。世の中的にChatGPTの盛り上がりやベクトル検索がいろんな検索エンジンで使えるようになってきたこともあり、大規模言語モデルと検索エンジン、ベクトルデータベースに関する話がたくさんありました（昨年まではKafkaやストリーム処理の話も多かったんですが）。

ということで、今年もセッションを見ながら残したメモを公開しておきます。

簡単にメモ

What defines the “open” in “open AI”?

セッションページ：What defines the “open” in “open AI”?
動画： Jennifer Ding - What defines the “open” in “open AI”? - YouTube

“OpenAI"の話ではなく、オープンなAIとは？という話で、ライセンスの話であったり、コミュニティ（データセットの公開とかベンチマークの共有とか）に関する話であったり。後半は気を抜いてしまって話をうまく聞き取れてないので、興味がある方はビデオで。。。

Vectorize Your Open Source Search Engine

セッションページ：Vectorize Your Open Source Search Engine
動画： Atita Arora - Vectorize Your Open Source Search Engine - YouTube

ベクトル検索が流行ってきてるけど、これまでの検索（エンジン）に対して、どうやってベクトル検索を取り入れる？という話です。ベクトル検索ってどんなもので、どういうことの助けになりそうか？じゃあ、どうやって、これまでの検索が改善したかを見ていくのか？という、これからベクトル検索を取り入れようとしている時にどのようなアーキテクチャにして、どのような考慮するポイント（モデルの選択とかスケーラビリティとか）にどんなものがあるのか？といった紹介でした。ざっくりですが、ベクトル検索やるのにどんなことをやっていけばよいのか？という地図になるようなセッションでした。

Supercharging your transformers with synthetic query generation and lexical search

セッションページ： Supercharging your transformers with synthetic query generation and lexical search
動画： Milind Shyani - Supercharging your transformers with synthetic query generation and lexical search - YouTube

AWSの人の話でした。こちらもトランスフォーマーが検索に使えると便利だよねという話なのですが。 LLMを使うと高コストでサイズがどんどん大きくなっていて、小さな学習済みのモデルだといまいちな精度でだし、ファインチューニングしたい場合、ドメインに特化したデータはなかなかないよね。とくにデータ（検索したいもの）はあるけど、クエリがないということがよくあるよね。そこで、LLMを使って、データからクエリを作って、正解データを作り、それでファインチューニングすればいいのでは？ということで、やってみました、どうでしたという話でした。

ブログなどもあるので参考にすると面白いかも

The Debate Returns (with more vectors) Which Search Engine?

セッションページ：The Debate Returns (with more vectors) Which Search Engine?
動画：Charlie Hull - The Debate Returns (with more vectors) Which Search Engine? - YouTube

今年も検索エンジンの人を集めてパネルディスカッションです。今年は次の方たちが参加してディスカッションでした。

参加者
- Jo：Vespaの人。ランキングとかがよくできてるからVespa好き
- Alessandro：Apache Solrの人。SolrのPMCメンバー。なんでSolr？Pure OSSだし。スケーラブルだ
- Etienne：Weaviateの人。新しいAI nativeなベクトルデータベース
- Philipp：Elasticの人。
- Kacper：Qdrantの人。

質問は次のようなものでした。

最初の質問：スケールの話。スケールアウトかな？
2つ目の質問：どんなアプリケーションが適していないか？
3つ目の質問：どうやってAIをサポートできるの？
4つ目の質問：どうやってコミュニティにアプローチしてる？
5つ目の質問：自分の検索エンジンが使えない時に何を使う？
6つ目の質問：今後に何が面白そう？
最後の質問：あなたの検索エンジンが使われてるユースケースで一番好きなものは？

2つ目や5つ目の質問が面白いですよね。実際の内容はぜひビデオを見ていただくのがいいかと（メモも取ったけど、聞いてもらうほうが面白そうだし）。

What’s coming next with Apache Lucene?

セッションページ：What’s coming next with Apache Lucene?
動画：Uwe Schindler - What’s coming next with Apache Lucene? - YouTube

毎年恒例Uweさん。今年Luceneが25周年という話で、これまでの進化の話を駆け足でしてくれました。あとは、後半は来週9.7が出るよということで、9.7で入ってくるベクトルの距離計算の最適化に関して説明してくれています。次のバージョンのElasticsearchでもこの最適化が使えるようになるという話もされていましたので、ベクトル検索を使ってる方は、次のバージョンも楽しみですね。

Building MLOps Infrastructure at Japan’s Largest C2C E-Commerce Site

セッションページ：Building MLOps Infrastructure at Japan’s Largest C2C E-Commerce Site
動画：Berlin Buzzwords 2023： Building MLOps Infrastructure at Japan’s Largest C2C E-Commerce Site - YouTube

メルカリの検索システムに関係しているMLOps周りがどうやって進化してきたのか？という話でした。英語にいらすとやの絵があるスライドがドイツで使われているのがとても新鮮ですｗ

Highly Available Search at Shopify

セッションページ：Highly Available Search at Shopify
動画：Khosrow Ebrahimpour - Highly Available Search at Shopify - YouTube

Shopifyの検索プラットフォームチームの人の、Shopifyの検索プラットフォームがどういったものか？（EsとKafka使ってる）どんな工夫をしているか？という話です。 Kubeconでも他の同僚の方が話をされている見たいで、そちらも参考になるとのことでした（動画）。スキーマ変更時の話とかもあり、実践的でした。最後に将来的な話でやはりベクトル検索というキーワードが出てきていました。あとは、データ量が大きいのでスケーリングの挑戦もあるとのこと。

Using Dense Vector search at the EU Publications Office

セッションページ：Using Dense Vector search at the EU Publications Office
動画：Martin Bayton - Using Dense Vector search at the EU Publications Office - YouTube

EUのPublication Office（日本だと公文書館とかになるのかなぁ？）の検索サービスで、Googleみたいなこと（検索結果の上にスニペットが出たり、そこにハイライトされたり）をやってみたいよね？という話みたいでした。実際公開してるかはわからないですが、途中からはPureinsightsという会社のプラットフォームで似たようなことをやるデモになってました。

Googleでも12%のクエリが、質問の自然文になっているという話で、検索結果にナレッジグラフからの情報（スニペットとか、質問に対する答えとか、地図とか）が出るようになってきていますと。それをPublication Officeのデータで再現したデモを行った後に、どんな感じのアーキテクチャなのか？という概略を説明されています。国会図書館とかの検索サービスやってる方が興味を持ったりするかもなーと思ったり、思わなかったり？

Learning to hybrid search

セッションページ：Learning to hybrid search
動画：Berlin Buzzwords 2023： Learning to hybrid search - YouTube

これまたキーワード検索とセマンティック検索のハイブリッドの話です。よくハイブリッド検索というのを聞きますが、データだったりベンチマークなどの話があまりないですよね？昨年AmazonがECSIというデータセットを公開したりしています（rejasupotaroさんが年末に書かれた記事にも出てきていました）。これにLearn to Rankとかもテストできるようなデータ（レビューや評価、カテゴリーとか）を拡張したものを作って、それをもとにいろいろとハイブリッド検索で精度を測ってみたというお話でした。 Metarankというリランキングエンジンの会社の方たちで、Metarankを使ってハイブリッドな検索結果のリランキングで精度がどのように上げられるか？という話です。今年のTRECのProduct Search Trackの話もされていました。これが元ネタのブログかな？

Catch the fraud — with observability and analytics

セッションページ：Catch the fraud — with observability and analytics
動画：まだ？

最後は元同僚のセッションです。こちらは検索ではなく、ちょっと自虐的なネタをもとにしたオブザバビリティおよび分析のお話です。コミュニティの人たちの貢献（ブログ書いたりプルリク送ったり、どこかで話をしたり）を計測して、年間の貢献者に対してプレゼントを上げるというのをやっているみたいです。で、昨年の最も貢献した人にMac Bookをプレゼントするというすばらしい（暴挙）話で、チートしようとした人がいてそれを分析した話でしたｗ締め切り直前に信じられない量の貢献したという登録がブラジルからあり、何かおかしいよね？ということで、Elastic Stackのオブザバビリティの機能などを元に分析してチートした人を除外していったよという話でした。 Kibanaが使いやすくなってるのがわかるセッションで面白かったです。

まとめ

検索がまたすごく盛り上がってきたなーという時間があるカンファレンスでした。みんな似たような話（ベクトル検索、LLM、AIなど）だったりしますが、知らないプロダクトで興味が出てくるものもあったし、Amazonのデータセットがあるからいろいろ試してみることもできそうだなぁと。

すでにビデオが公開されはじめているので、気になったセッションのビデオも見てから後日またブログを書こうとおもいます（たぶん、一覧が作成されるので後日リンクを貼っておきます）。

来年の予定（6月11日から開催）も公開されていましたし。来年も楽しみですね。来年はプロダクションでベクトル検索やってみた話とかがさらに出てくるのかなぁ？

今年もオンラインでBerlin Buzzwordsに参加した

Wed, 15 Jun 2022 18:00:15 +0900

今年もBerlin Buzzwordsにオンライン出張してました。今年はハイブリッドな開催だったようで、現地で再開している人もいるようでした。ブースもあったみたいです。ちなみに、現地で参加する人はマスク必須のようでした（Health & Safetyというページが用意されていました）。昨年オンラインだったMICESは現地のみでの開催みたいで見ることはできなかったです（録画公開されないかなぁ）。

さて、いくつか見たセッションで面白かったものがあったので簡単にメモを。すでにセッションのビデオがYouTubeで公開されているので、興味のある方は見てみてください。

面白かったセッション

The future of Lucene’s MMapDirectory: Why use it and what’s coming with Java 19 and later?

毎年恒例になってる気も？前半は昨年も話をした内容で、後半はJava 19がリリースされたら、Previewという形でフラグを立てて使えるようになるようです。使えるようにするから、テストしてみて！という感じで終わっていますｗ

Scaling an online search engine to thousands of physical stores

セッションページ：Scaling an online search engine to thousands of physical stores ：： Berlin Buzzwords 2022 ：： pretalx
動画：Aline Paponaud – Scaling an online search engine to thousands of physical stores - YouTube

数千の実店舗の商品をオンラインで検索できるようにしつつ、オンラインのマーケットプレイスのような検索も一緒にできるようにしたというお話でした。インデックスの構成をどう工夫したのか？とかどういうクラスター構成にして、どんなことをモニタリングしてるよ？というお話です。実際の店舗がどんなものかなどは出てこなかったので、少しイメージは沸きにくかったのですが、どんなことを考えながらインデックスの構成とか考慮したよという話はおもしろかったです。実際に検索したときに、実店舗のデータがどんな感じで結果として表示されたりするのか？といった点はわからなかったので、そのあたりの話をもうちょっと聞いてみたかったなぁ。

Offline Ranking Validation - Predicting A/B Test Results

セッションページ：Offline Ranking Validation - Predicting A/B Test Results ：： Berlin Buzzwords 2022 ：： pretalx
動画：Andrea Schütt & Yunus Lutz – Offline Ranking Validation - Predicting A/B Test Results - YouTube

otto.deというECサイトでのランキングをどうやって改善していくか？という話。現在はマニュアルなチューニングをコンテキストごとにやっているけど、リクエスト量とかデータとかが増えてきてて、このままマニュアルで改善していくのも大変なので、モデルベースのランキングを開発できないか？というのをはじめていますよと。そのために、これまでのデータから、A/Bテストの結果を予測できるモデルが作れないか？というのをやっていますという話。いくつかわからない単語も出てきたので、誰か詳しい人教えて！

AI-powered Semantic Search; A story of broken promises?

セッションページ：AI-powered Semantic Search; A story of broken promises? ：： Berlin Buzzwords 2022 ：： pretalx
動画：Jo Kristian Bergum – AI-powered Semantic Search; A story of broken promises? - YouTube

Vespaの開発にかかわってる方の、Semantic Searchに関する話。 Semantic Searchが流行り始めていて、どうやればできるのか？という話が出てきています。けど、どういうものでどういう点に気を付けたほうがいい？という話でした。 LtRってこんなもの、そのあとに出てきたLLM（Large Language Model）でどうやって検索の改善に使えるの？というのが分かりやすく説明されていました。それらの説明の後、BEIRという論文を紹介しつつ、LLMを使うときの注意点の話がありました。

BERTとかをちょっと勉強してたのもあり、なんとなくそうだよなぁと思っていた結論と同じ結論が出てきたので面白いと感じました。 BEIRの論文は時間を見つけて読んでみないとな。

Hybrid search > sum of its parts?

セッションページ： Hybrid search > sum of its parts? ：： Berlin Buzzwords 2022 ：： pretalx
動画：Lester Solbakken – Hybrid search： Greater than the sum of its parts? - YouTube

こちらもVespaの人の話。先ほどのSemantic Searchの話では、Semantic Searchがどんなものか？という話でした。が、それだけで検索ができるわけでもないので、キーワードサーチとSemantic Searchの両方をうまく活用するには？というのがこのセッションでした。最終的にはVespaを使うとうまくハイブリッドできるよという話ですが、考え方は参考になるかなと。 Vespaも触ってみたいなぁ。

The life of a search engine administrator

セッションページ：The life of a search engine administrator ：： Berlin Buzzwords 2022 ：： pretalx
動画：Lucian Precup & Vincent Bréhin – The life of a search engine administrator - YouTube

検索システムの管理者ってどんなことやるの？それにはどんなことができるツールがあるといいの？という話です。まぁ、ツールについてはこの会社の人たちのツールの宣伝なのですが、検索システムを作って育てていくのにどんなことを考えたりするのか？という参考になるかなぁと。

Should we stop using distance in our location-based data recommendation models?

TravelTimeという会社を立ち上げた人の話。位置に関する情報って重要だし、検索するときに利用しますよね？例えば、ホテル決めたりとか、仕事探したりするときに。ということで、位置情報を検索エンジンで利用する方法（Bounding Box、ポリゴン、距離）をまず紹介して、どんなユースケースで使えるかという話があります。また、それとは別に検索速度（いかに検索を速く返すか）も重要だという話があります（ウォルマートはページロード時間を1秒早くしてコンバージョンが2%あがったとか）。で、実際に検索結果に距離とかでるけど、実際に知りたいのはどのくらいの時間で行けるのか？という話だったりしませんか？と。公共交通機関を使ったりする場合に、実際に45分で移動できる距離というのは半径5マイルとかできまるものではないのに、単純に位置情報を利用した距離だけでソートしていいの？という問いかけから、その辺を考慮した検索ができるAPIを開発しているよ、検索速度もはやいよというお話でした。残念ながら具体的にどうやって作っているのか？というのはなかったですが、観点がおもしろかったです。

Word2Vec model to generate synonyms on the fly in Apache Lucene

Word2Vecのモデルを使った、Apache LuceneのSynonym Filterを開発中だよという話 DeepLearning4Jを使ってみたが、遅くて使えなかったんだけど、最近Luceneに入ったkNNを使うことでそれなりの速度で使えそうなものができるかもよ？って感じでした。モデル学習用のツールも作ってて、イタリア語のWikipediaで学習したものでちょっと動かしたらそれっぽい感じになってるという話でした。まだ途中でいくつかやりたいことがあるという話で、実用はまだ先のようでした。例えば、1単語のSynonymにしか対応してないとか、モデルをインメモリでしか動かせないとか。

QAでも出たのですが、Word2Vecだと対義語も類似していると判定されてしまうと思うので、その辺がどうなっているのかなぁ？という疑問があります。ルールベースの類義語ではないので、調整するのはどうやるのかなぁ、学習用のコーパスをいい感じにするとかなのかな？とか、気になるところです。

NrtSearch: Yelp’s fast, scalable, and cost-effective open source search engine

YelpがLuceneベースで開発をしているNrtSearchというOSSの話です。 Elasticsearchを使っていたんだけど、どういった点が問題点になってどういうモチベーションでNrtSearchを開発したのか？を説明しています。アーキテクチャがどんなもので、実際に動かしてみてどんな利点があって、どんな点が問題として出てきているか、将来どんなことをやろうとしているかがわかります。 QAでもいろんな質問が出ていて面白いです。

まとめ

ということで、簡単でしたがセッションの感想でした。 Neural/Semantic Searchというのがセッションのタイトルなどに入っているのが多くなってるなぁという感想です（ちょっとやってみたい気はしてるんだよなぁ）。すでにYouTubeに動画が公開されているので興味があるセッションを見つけてみてください。 Berlin Buzzwordsの次の日に開催されたMICESも観てみたかったですが、オンラインでも参加できる形式で海外のカンファレンスが開催されるのはとても助かりますね（ヨーロッパだと時差もそれほど大変じゃないし）。けど、落ち着いたらまたオフラインで参加してみたいなぁ。

今年もMICESにオンライン出張してた

Tue, 13 Jul 2021 16:08:23 +0900

今年もMICESにも参加してました。昨年はBerlin Buzzwordsと共同開催でしたが、今年は別開催（別日程）でした。

MICESは2017年から始まったe-commerceの検索にフォーカスしたカンファレンスです。 ECに関連する話に特化されていますが、話題は多岐にわたっています。色々やることありますねぇ、ECも。

参加したセッション

参加したセッションの個人メモを今回も残しておきます。セッション個別のリンクは用意されていないみたいですが、公式サイトにタイムテーブルがあり、セッションのタイトル、概要に加えて、スライドのPDFもリンクがあります。動画が公開されているものもあります。

Dreaming Search

ビデオが公開されています。スライドがざっくりしたものなので最初に聞いた時にはしっくりこなかったので、聞き直してのメモです。 GDPRのような話で、個人の情報を自分たちで管理しようと流れがあります。それぞれのECサイトなどでのユーザーのイベント（何を検索して、何をクリックした）情報はそれぞれのサイトで閉じた情報になっています。このため、自分の興味のある情報が断片化された情報でそれぞれのサイトで管理されてしまい、パーソナライゼーションされるもの（ランキングだったりレコメンドだったり）がいまいちな場合があります。この個人の情報（ユーザーのイベント）をユーザー自身がハンドリングして、どの情報までをどこまで公開できるようにするというように管理できる仕組みができないか？という話のようでした。実際にそのための仕組み（もっと大きな話の仕様）を検討しているプロジェクトがあり、それに関連して検索という観点で夢を語っているセッションです。

ざっくり私が理解したのをまとめましたが、empathy.coという会社としてはいくつかPoCなども実施されているようでした。個人の情報の扱い方に関する話は新鮮で面白かったです。仕組みが出来上がり、各サイトが対応するとより個人が欲しい情報が集まりやすくなるのかなぁ？

Berlin BuzzwordsでいくつかLTをやられていた方によるファセットとその応用（彼らはRefinementsと名前をつけたみたい）についての話でした（ビデオとスライドが公開済み。）。検索エンジンとファセットの関係の歴史から始まって、Kibanaでの使い方、モバイルや音声検索・チャットボットでのファセットは難しいよね？という話につながります。ということで、Refinementsとして、ファセットを提示してユーザーに選んでもらうだけでなく状況に応じて、提案するための情報としてファセットを使うといいのでは？という話でした。例えば、チャットボットや音声検索での結果の場合、検索結果数が多くなるとユーザーが望んだものが返せるとは限らないです。その時に、ファセットの情報をもとに絞り込み条件を聞き返すネタに使うのはどうか？というような話でした。オートサジェスト（検索があいまいな時に、追加のキーワードを提案するもの）のような形でブランド名だったり、カテゴリーなどを表示する仕組みです。実際の実装の話は、彼らが過去にBerlin Buzzwordsなどで話をしているのでそちらが参考になるとのことでした（参考：berlin buzzwords 2019 / Heystack 2019）

Reinforcement learning in search

検索における強化学習の話みたいです。ビデオとスライドが公開されています。ビジネス的に検索のランキングが重要だが、そのランキングをどうやって良くしていくのか？という話です。ランキングでデフォルトのBM25から始まり、LtRを導入し、A/Bテストなどをしつつ、モデルの変化がどのようにビジネスに影響するかをはかるのが難しくなります。 LtRに対するオンライン機械学習のアプローチについて実際に直面した課題の話などがされている（はず？）です（どうも、実際にCTRなどを用いたところまでは行ってなさそう）。

多腕バンディットなどの強化学習の話が続いたあたりでギブアップしてしまいました。。。

Better Search through Query Understanding - Panel

Query Understandingに関するパネルとして3社の人がそれぞれどういった取り組みをしてるか？という話をしたあと質問などに答えていく形式でした。残念ながらビデオはまだ公開されていませんが、スライドが公開されています。QA部分も結構な時間だったのでビデオの公開がされるといいなぁ。

Understanding queries by analysing user interaction / Andrea Schütt (OTTO)

OTTOというECサイトでのQuery Understandingの紹介と、LtR導入にまつわる話。データサイエンスとして最初はQuery Understandingやってたけど、スケールしないのでLtR導入して色々と試行錯誤しているところのようだった。

Query Understanding AI search

eBayの方の発表。Query Understanding = ユーザーの興味をクエリから類推するという定義から、クエリを分類する、同定するためにどうしているか？という話でっした。単語の表面的な文字としての近さだけでは、語順が変わると意味が変わるものや、ステミングのせいで同じになってしまうものといった例を紹介しつつ、クエリをベクトルにして表現（コンバージョン、クリックなどの情報を元にプロダクトのベクトルにしてみたり）し似ているかどうか？を判断している話です。

Case study : Autocomplete Search Suggestions

Digitec Galaxusというサイトでのオートコンプリートをもっと使いやすくするためにどんなデータを集めて、どうやって表示しているか？という話でした。とりあえず入力されたものにヒットしたものを出すような実装だった場合に、サジェストされる量が多く、ノイズも多いので使いにくかったものをどうやって改善して行ったかという処理の流れなどの説明もありました。

The need for an open web search in Europe - The approach of the Open Search Foundation and its implications for E-Commerce-Companies

Speaker: Alexander Decker / OPEN SEARCH FOUNDATION

もっとオープンな検索システムを作っていこうという団体の話でした。 AWSが最近1.0をリリースしたやつとは別物です。 Googleでみんな検索しているけど、ブラックボックスなのでバイアスがかかっている。もっとバイアスフリーなインデックスを提供できると、使いやすくなるよね？みんなでそういうインデックスを作っていかないか？という話でした。 ECとの直接の関係はセッションからは読み取れませんでした。どうやって、集めるデータの基準（入れるべき、入れるべきではないなど）を作るんだろう？という疑問が残っています。公共的なものやオープンデータについてはあるとよさそうかもなぁ。

101 hints to improving the customer satisfaction on search engines in the retail industry

Speaker: Marion Hemery (Carrefour France) & Lucian Precup (a// & Adelean)

カルフールのECサイトでの検索に関する顧客満足度の改善についての話です。どんなものをどうやって図るのか、フィードバックを取るための仕組みは？そこからわかったものをどうやってシステムに優先度をつけながら取り込んでいくのか？というのをどんなものを使っているかという説明を交えながらのセッションです。スライドが結構細かく書かれているのでスライドを見るだけでもわかりやすいかな。

“An ounce of prevention is worth a pound of cure”: establishing a gold standard-based evaluation in customer projects

Speaker: Bertram Sändig & Cornelia Werk / NEOFONIE

検索の性能指標（速度ではないほうの性能）をきちんと評価する仕組みが重要だよというセッションです。検索の仕組みを変更（例ではステミングを導入するはなしをしてました）した場合に、現行システムにどういう影響が出るのか？それをどうやって図るのか、どうやってテストしていくのか？という話です。ステミングを導入したら、検索にヒットしやすくなったものも出てきたけどその弊害として今までよかった検索の結果にノイズが増え多という話をもとに、検索結果としてこうあってほしいというゴールデンスタンダードをきちんと作って育てていくべきですよという話でした。完ぺきなものなどないので少しずつやっていきましょうと。

ということで、見ていないもの（LTや最後のワークショップ）もありますが、見たものに関してメモを残してみました。

今年もBerlin Buzzwordsにオンライン出張してた

Fri, 09 Jul 2021 16:24:53 +0900

今年もBerlin Buzzwordsにオンライン出張してました。今年の開催は6月14日から17日まででした。どんなカンファレンスなのかは昨年のブログ記事をごらんください。

今年はHAYSTACKは共同開催で、MICESは別開催でした。 MICESにも参加していたので、また後日にブログ記事を公開する予定です。

参加したセッション

参加したセッションの個人用のメモを取ってあるので、簡単にまとめておきます。セッションページに動画やスライドも追加されつつあります。興味のある方はそちらをご覧いただければと。（今のところYouTubeに上がっているビデオは69本あります。再生リストはこちら）気になっていたセッションもあるので、ビデオを見てまたメモを公開すると思いますが、まずは第1弾を。ちなみに、検索をメインに見ています。Berlin Buzzwords自体はオブザバビリティやOSSコミュニティ、データのストリーミングの話などの話題もあるので、この辺りも興味があれば探してみても面白いかもです。

How to measure Diversity of Search Results

セッションページ： How to measure Diversity of Search Results | Berlin Buzzwords 2021

従来の検索では、クエリに対して精度の高い検索結果を1件または数件返すのはどうするか？というものだったが、最近、あるユースケース（ほかの物の発見を促したいケース）では検索結果の多様性を高めつつ、精度もある程度確保したいという場合があります。

ざっくりした検索クエリ（例えば自転車）の場合に、自転車だけが1ページ目にある場合よりも自転車とは別に自転車グッズも表示された場合のほうがクリック率やGMV（Gross Merchandice Value?）が上がったという話が紹介されていました。この時どのくらい混ぜればいいのか？というのを、シャノンのエントロピーを使って、検索結果の多様性を保つための具体的なヒントについて話をされています。実際にこういう計算をしてやれますねという紹介がされています。

From text search and recommendation to ads and online dating; approximate nearest neighbors in real world applications

セッションページ: From text search and recommendation to ads and online dating; approximate nearest neighbors in real world applications | Berlin Buzzwords 2021

Vespa.ai（OSS）の紹介でANNの話でした。通常、ANNを用いた検索の場合に他の検索条件（地理情報、日付など）をANNの結果に対して適用すると、望んでいる数がとれないです。その場合に、Vespaは内部でいい感じの動きをしますよという紹介でした。

“Are You Sure?"： blending product comparisons and recommendations with A.I.

セッションページ: “Are You Sure?"： blending product comparisons and recommendations with A.I. | Berlin Buzzwords 2021

Amazonの製品ページにある、類似商品との比較一覧のような一覧をどうやって実現するか？という話でした。比較一覧に掲載する商品を選出するパイプラインをこうやれますよね?という話でした。ログ（クリックやカートに入れたかどうかなど）を元にkNNで似ているデータを洗い出し、どの商品、どの項目を比較一覧として選ぶかという流れでした（セッションではもっと詳しい話がされています）。オフライン実験の話までがセッションでされています。

The future of Lucene’s MMapDirectory： Why use it and what’s coming with Java 16 and later?

セッションページ: The future of Lucene’s MMapDirectory： Why use it and what’s coming with Java 16 and later? | Berlin Buzzwords 2021

Apache Lucene PMCのUweさんによるLuceneのMMapDirectoryの話です。ファイルシステムとJavaに関する歴史と、なぜMMapなのか、現在のMMapの実装の問題点とJDK 16でどうなっているか（どんな感触か）、さらにその先（JDK17）は？という話です。 Luceneでの利用方法からJDKへのフィードバックが行われている話や、そのフィードバックをもとに今後どのようにしていくのか?という話がされています。

Search and Sushi; Freshness Counts

セッションページ: Search and Sushi; Freshness Counts | Berlin Buzzwords 2021

こちらもVespa.aiの紹介です（今年はスポンサーしてるから多いのかも？）。Yahoo!とVerizon Mediaで利用している話をしたあと、Vespaでのリアルタイムインデキシングに関するアーキテクチャの紹介でした。内部で転置インデックスやそれ以外のデータをどのように保持しているのか？どういったことができるのか？というのをアーキテクチャ、ストレージの観点から紹介しています。

Encores? - Going beyond matching and ranking of search results

セッションページ(動画がまだない): Encores? - Going beyond matching and ranking of search results | Berlin Buzzwords 2021

検索のマッチングやランキング以外のいくつかの機能についての紹介をワークショップ形式で行うセッションです。ファセット、クエリオートコンプリート、スペル訂正、クエリリラクゼーションについて、データとSolrのクエリを基準に説明をしてくれます。

The Invasion of Transformers - Boosting Search with Latest NLP

セッションページ: The Invasion of Transformers - Boosting Search with Latest NLP | Berlin Buzzwords 2021

deepsetという会社のCTOの方で、自社で作っているOSSのhaystackという製品の紹介です。最近のGoogleの検索結果にはいろんなもの（問いかけに関する答えそのもの、またそのプレビューやサマリー）が出てきているという話から、Transformersを使って検索ができないかということで自社のOSSの仕組みを紹介しています。

参考
- Google： BERT now used on almost every English query
- deepset-ai/haystack： End-to-end Python framework for building natural language search interfaces to data. Leverages Transformers and the State-of-the-Art of NLP. Supports DPR, Elasticsearch, Hugging Face’s Hub, and much more!

Learning to Judge

セッションページ: Learning to Judge | Berlin Buzzwords 2021

otto.deというECサイトでLtRを導入し、そのLtRにどんな特徴を利用しどうやって実験したかというセッションでした。Apache Solrで検索ができていて、これまでは検索の管理を人手で行っていたがスケールしない（扱う商品などは増えているのに）のでLtRを導入し始めたという感じでした。LtRの導入の過程でどういう仮定を置いて、どうモデルを決め、それをどうやってテストしてどう分析したか?という流れでした。

Text categorization with Apache Lucene

セッションページ: Text categorization with Apache Lucene | Berlin Buzzwords 2021

LTなので短めです。BBCのデータセットをインデックスに登録し、そのデータをもとにLucene（デモではKibana＋Esを利用していた）でテキスト分類を行なう方法について紹介しています。BBCのデータセットは記事（テキスト）とカテゴリ（タグ）というデータです。このデータが登録されているインデックスに対して、More Like Thisクエリに分類したい文章を与え、ヒットしたデータをもとにAggregationでカテゴリを取得し、上位のカテゴリが分類された結果になるというデモでした。テキストフィールドにはEdge N-Gramを利用していること、Aggregationのソートの条件はMore Like Thisクエリでのスコアの平均を利用していることというのがこの方法がうまくいくことのようでした（なるほど！）。ただ、日本語でもこれが使えるかな？というのはやってみないとわからないかなぁと（やってないです）。

とりあえず、メモしておいたのはこの辺でした。他にもセッション一覧を眺めながら面白そうな話をピックアップしてメモを取っていこうかなぁ？気になるセッション、メモがおかしいなどあればコメントいただければと。

Berlin Buzzwordsにオンライン出張してた

Mon, 06 Jul 2020 12:12:44 +0900

6月7日の週に開催されたBerlin Buzzwordsにオンライン出張してました。

Berlin Buzzwordsとは?

ベルリンで開催されている、Big Data、Scarability、Storage and Searchabilityに関するカンファレンスです。今年はコロナウイルスの影響で、オンラインで開催されました。また、同時期に検索に関する他のカンファレンス(以下の2つ)もベルリンで毎年開催されているのですが、今年はこれら3つのカンファレンスが1つのチケットで参加できる形で開催されました。

MICES - MIX-CAMP E-COMMERCE SEARCH
HAYSTACK - The Search Relevance Conference! sponsored by OpenSource Connections

MICES、HAYSTACKは初参加ですが、検索に関するいくつかのトピックが聞けたので楽しかったです。

6/7から6/12まで(がんばって)参加したので、その感想などをブログにとどめておきます。

オンラインってどんな感じで開催されてた?

まずは、オンライン開催がどのような感じだったのかをメモしておきます。

有料のオンラインカンファレンス(事前にチケット購入が必要)
参加者用Slack
- カンファレンス数日前まではここで連絡とか質問が可能だった(もちろん、メールも来ましたけど)。
基本的なプラットフォームはBrellaのバーチャルイベントプラットフォーム
- 参加者同士のSNS機能 - 参加者同士の興味によって参加登録時に似たような人ですよとマッチングしたり。ビデオチャット機能もあり。
- カンファレンスのスケジュール確認 - セッションのスケジュールの他に、参加者同士でのチャットのスケジュールも可能。一番便利だったのは自分のタイムゾーンも表示してくれること。
- ストリームチャネル - セッションが行われている場所への誘導
- スピーカー・スポンサーのリスト - スピーカーやスポンサーを探せる機能。スポンサー企業からは参加者も見ることができる
セッションはYouTubeライブ
- ストリーム中だったらちょっと戻ったり、ポーズもできるので、便利だった
セッション後の質疑応答にはJitsiというオープンソース!?のビデオカンファレンスの部屋が用意されてた(GitHubで公開されてるのか。https://github.com/jitsi)。
2日目、3日目はLTとかが終わったあとに、オンライン飲み会やってたっぽい(不参加)

主催者側も初めてだとは思うのですが、目立ったトラブルはなかったです。ちょっとだけ遅れたりしてましたが、それほど影響はなかったです。オンラインでの開催の一番のネックは、日本だと時差が辛いということです。ベルリンが開催地なのですが、スピーカーや参加者はアメリカからの方が結構います。そのため、開始時間が日本の23時といった具合になりました。

面白かった&気になったセッション

いくつか面白かった&もう一度見ないとなと思ったセッションと感想を。

Natural Language queries at Salesforce scale

セッションのページはこちら(2020年7月現在)

Salesforceでどのような自然言語のようなクエリに対して書き換え、サジェストのようなことをやっているか?という話です。 Salesforceはテナント(企業)ごとに、データ構造などがカスタマイズ可能なため、それぞれ個別に入力クエリ(例: new leads in sf)に対して、どういったパーツ(時間?場所?状態?)なのか?、どのフィールドへの条件なのか?といったものをNERのディープラーニングモデルとして捉えて解析しているという話でした。企業毎にパーソナライズもされていると。実際にはパイプラインの一部でこの処理をやっており、それ以外にも処理はされているという話もありました。評価の話もされています。

AMA - AI-Powered Search

セッションのページはこちら(2020年7月現在)

ManningでMEAP(絶賛書いているところ)のAI-Powered Searchの著者2名がAMA形式でいろんな質問に答えていく感じのやつです。最初は近況報告(Treyさんがカンファレンス直前に転職してた)と、書籍がどんなものかを簡単に紹介したあと、質問に答えていく形式で2時間あります。ディープラーニングのモデルに関する話なども出てきています。もう一度見たいと思ってたやつなので見ないとな。。。 (パネルっぽいセッションは、ヒントがなにもないので結構辛い)

Ask Me Anything: Lucene 9

セッションのページはこちら(2020年7月現在)

LuceneのPMCメンバーのUweさんが今後のLucene/Solrのいくつかの質問に答える感じのAMAです。出てきた話(質問の前の)としては、Lucene 8の現状(Bloc-Max WANDとか)や、Java 11対応になるよとかです。 QAでは、SIMDの話、Approximate Nearest Neighborがどんな感じか?などの話でした。

From commercial search to owned search

セッションのページはこちら(2020年7月現在)

カルフールスペインがECの検索をどのように導入したかという概要レベルの話でした。モノリシックなものをマイクロサービスでk8s上に載せ替えたという大きなアーキテクチャ以降の話です。 Empathy.coが提供しているものを最終的には使用したみたいだけど、どんな検索がされているのかといったニーズの調査ができるようになり、検索に絡んだKPIが改善した話でした。 COVID-19に絡んだクエリの変化についてもちょっと話が出てました。

Neural Search in Practice

セッションのページはこちら(2020年7月現在)

Zalandoの検索の一部でNIR(Neural IRモデル)を利用してクエリの改善をやって、それをどうやってトレーニングして、テストしたかなどの話。 NIRを利用することで、複数の言語に対して改善が見られたという話だった。今までは、クエリをいくつかの処理を元に翻訳して、入力された単語がカテゴリーに対するものなのか、スタイルに関するものなのか?などを判別して、クエリの補強?を行っている手法だった。これに対して、ディープラーニングでクエリに対するクリックデータを元にトレーニングして、どういうクエリに対してどんなアイテムを出すのか?というモデルで検索を改善していた。ヒット件数が0件だったり少ないものを対象にして上記の処理を入れているらしい。 (ということで、ディープラーニングをしっかり勉強しないといけないみたいなので、どうにかしたい。。。)

Top 10 Lessons learned in search projects the past 10 years

セッションのページはこちら(2020年7月現在)

10年検索プロジェクトをやってきた10個の気づきという感じのセッション。ごく当たり前のことなんだけど、検索の導入・改善に関して、こういう事あって、何も考えないとこうなっちゃうよね。だから、こんなことをやるべきだよね?という話です。たとえば、検索窓はあるけど分析すらしていない状況(レッスン1)だとまずはこういうのやらないとね。とか、検索クエリの分析・改善ばかりして、コンテンツの分析・改善を怠っていないか?という当たり前の話です。当たり前なんだけどまとめてくれてるのは、やはりいいなぁと。

Click logs and insights: Putting the search experts in your audience to work

セッションのページはこちら(2020年7月現在)

検索ログとクリックログがあったときに、どういったことに使えるのかを料理のレシピに見立ててデモをするセッションで説明が面白かったです。「こんなログがあったときに、ログのこの項目とこの項目を材料にすると、こんなのができますね」というのを、Elasticsearchにログを取り込んで、JupyterNotebookでデモをしていました。やはり動くものがあるとわかりやすいですねぇ。

Mixing and Matching: Diversifying Search Results

セッションのページはこちら(2020年7月現在)

これまたパネルセッションです。検索結果の多様性に関するディスカッションでした。これは、ECだからこその課題でもあるのかなと。検索自体は「何かを見つける」ための手段です。普通に考えた場合は、ピンポイントで探していたものが見つかるのが嬉しいです。が、例えば、ユーザーが検索した単語そのものが入っているだけのものが見つかるよりも、似たような商品も一緒に出てきてほしいことありますよね?また、ECサイトだと、回遊してほしいというのもあります。ということで、それぞれの方がどんな観点で多様性を考えているのかという話をするディスカッションになっていました。

Thought Vectors, Knowledge Graphs, and Curious Death(?) of Keyword Search

セッションのページはこちら(2020年7月現在)

AI-Powered Searchの著者の一人、Treyさんのセッション。ベクトルを検索にどうやって使うのか、ベクトルで表現できるものはどんなものがあるのか?どんな検索エンジンで使えるのか?という話でした。歴史的な話も交えつつ、検索だとこのへんで使えるんじゃないか?というような話でした。

録画は?

気になったセッションをいくつか書き出してみました。ちなみに、全セッションのビデオが公開されています。興味がある方は、ご覧いただければと。

The recordings from this year's Berlin Buzzwords / MICES / Haystack joint event are now online. You can watch them all on our YouTube channel. Thank you once again to all of our wonderful speakers. https://t.co/hTRDmKNdpd
— @berlinbuzzwords@floss.social (@berlinbuzzwords) July 6, 2020

感想そして来年は?

楽しかったです。検索に関する話が色々聞けるのはやっぱ楽しいですね。サイトの特性(ECなのか、Wikipediaなのかなど)によっても「良い検索」の定義も変わるので、サービスなどがどんなものか、そしてそれを良くするためには検索はどんなことができるのか?といった話や、技術的な濃い話までいろいろな話を聞けました。ただ、パネルは英語の聞き取りが辛いですね。。。あと、時差が。日本にいながらにして時差ボケは辛い。。。オンライン飲み会には流石に参加できませんでした(4時とか5時から始まるし)。

来年もオンラインで開催されたら間違いなく参加します。オフラインのみだった場合はどうなるかなぁ。。。

Conference on @johtaniの日記 3rd

今年もオンラインでBerlin Buzzwordsに参加した

簡単にメモ

What defines the “open” in “open AI”?

Vectorize Your Open Source Search Engine

Supercharging your transformers with synthetic query generation and lexical search

The Debate Returns (with more vectors) Which Search Engine?

What’s coming next with Apache Lucene?

Building MLOps Infrastructure at Japan’s Largest C2C E-Commerce Site

Highly Available Search at Shopify

Using Dense Vector search at the EU Publications Office

Learning to hybrid search

Catch the fraud — with observability and analytics

まとめ

今年もオンラインでBerlin Buzzwordsに参加した

面白かったセッション

The future of Lucene’s MMapDirectory: Why use it and what’s coming with Java 19 and later?

Scaling an online search engine to thousands of physical stores

Offline Ranking Validation - Predicting A/B Test Results

AI-powered Semantic Search; A story of broken promises?

Hybrid search > sum of its parts?

The life of a search engine administrator

Should we stop using distance in our location-based data recommendation models?

Word2Vec model to generate synonyms on the fly in Apache Lucene

NrtSearch: Yelp’s fast, scalable, and cost-effective open source search engine

まとめ

今年もMICESにオンライン出張してた

参加したセッション

Dreaming Search

Forget Facets, welcome Refinements (TM)

Reinforcement learning in search

Better Search through Query Understanding - Panel

Understanding queries by analysing user interaction / Andrea Schütt (OTTO)

Query Understanding AI search

Case study : Autocomplete Search Suggestions

The need for an open web search in Europe - The approach of the Open Search Foundation and its implications for E-Commerce-Companies

101 hints to improving the customer satisfaction on search engines in the retail industry

“An ounce of prevention is worth a pound of cure”: establishing a gold standard-based evaluation in customer projects

今年もBerlin Buzzwordsにオンライン出張してた

参加したセッション

How to measure Diversity of Search Results

From text search and recommendation to ads and online dating; approximate nearest neighbors in real world applications

“Are You Sure?"： blending product comparisons and recommendations with A.I.

The future of Lucene’s MMapDirectory： Why use it and what’s coming with Java 16 and later?

Search and Sushi; Freshness Counts

Encores? - Going beyond matching and ranking of search results

The Invasion of Transformers - Boosting Search with Latest NLP

Learning to Judge

Text categorization with Apache Lucene

Berlin Buzzwordsにオンライン出張してた

Berlin Buzzwordsとは?

オンラインってどんな感じで開催されてた?

面白かった&気になったセッション

Natural Language queries at Salesforce scale

AMA - AI-Powered Search

Ask Me Anything: Lucene 9

From commercial search to owned search

Neural Search in Practice

Top 10 Lessons learned in search projects the past 10 years

Click logs and insights: Putting the search experts in your audience to work

Mixing and Matching: Diversifying Search Results

Thought Vectors, Knowledge Graphs, and Curious Death(?) of Keyword Search

録画は?

感想そして来年は?