今年もオンラインでBerlin Buzzwordsに参加した

今年もこの季節がやってきました。 Berlin Buzzwordsにオンラインで出張してました。今年もハイブリッド開催をしてくれたので、オンラインで参加できました。現地ではブースが出たり、朝食なども用意されているようでした。今年は昨年と違いマスク必須でもなくなったようです。 MICESも去年同様、現地開催のみのようです（今見たら、昨年のビデオとスライドが公開されてるので、時間見つけてみてみよう）。

今年はうれしいことに検索に絡むセッションが大多数でした。世の中的にChatGPTの盛り上がりやベクトル検索がいろんな検索エンジンで使えるようになってきたこともあり、大規模言語モデルと検索エンジン、ベクトルデータベースに関する話がたくさんありました（昨年まではKafkaやストリーム処理の話も多かったんですが）。

ということで、今年もセッションを見ながら残したメモを公開しておきます。

簡単にメモ

What defines the “open” in “open AI”?

セッションページ：What defines the “open” in “open AI”?
動画： Jennifer Ding - What defines the “open” in “open AI”? - YouTube

“OpenAI"の話ではなく、オープンなAIとは？という話で、ライセンスの話であったり、コミュニティ（データセットの公開とかベンチマークの共有とか）に関する話であったり。後半は気を抜いてしまって話をうまく聞き取れてないので、興味がある方はビデオで。。。

Vectorize Your Open Source Search Engine

セッションページ：Vectorize Your Open Source Search Engine
動画： Atita Arora - Vectorize Your Open Source Search Engine - YouTube

ベクトル検索が流行ってきてるけど、これまでの検索（エンジン）に対して、どうやってベクトル検索を取り入れる？という話です。ベクトル検索ってどんなもので、どういうことの助けになりそうか？じゃあ、どうやって、これまでの検索が改善したかを見ていくのか？という、これからベクトル検索を取り入れようとしている時にどのようなアーキテクチャにして、どのような考慮するポイント（モデルの選択とかスケーラビリティとか）にどんなものがあるのか？といった紹介でした。ざっくりですが、ベクトル検索やるのにどんなことをやっていけばよいのか？という地図になるようなセッションでした。

Supercharging your transformers with synthetic query generation and lexical search

セッションページ： Supercharging your transformers with synthetic query generation and lexical search
動画： Milind Shyani - Supercharging your transformers with synthetic query generation and lexical search - YouTube

AWSの人の話でした。こちらもトランスフォーマーが検索に使えると便利だよねという話なのですが。 LLMを使うと高コストでサイズがどんどん大きくなっていて、小さな学習済みのモデルだといまいちな精度でだし、ファインチューニングしたい場合、ドメインに特化したデータはなかなかないよね。とくにデータ（検索したいもの）はあるけど、クエリがないということがよくあるよね。そこで、LLMを使って、データからクエリを作って、正解データを作り、それでファインチューニングすればいいのでは？ということで、やってみました、どうでしたという話でした。

ブログなどもあるので参考にすると面白いかも

The Debate Returns (with more vectors) Which Search Engine?

セッションページ：The Debate Returns (with more vectors) Which Search Engine?
動画：Charlie Hull - The Debate Returns (with more vectors) Which Search Engine? - YouTube

今年も検索エンジンの人を集めてパネルディスカッションです。今年は次の方たちが参加してディスカッションでした。

参加者
- Jo：Vespaの人。ランキングとかがよくできてるからVespa好き
- Alessandro：Apache Solrの人。SolrのPMCメンバー。なんでSolr？Pure OSSだし。スケーラブルだ
- Etienne：Weaviateの人。新しいAI nativeなベクトルデータベース
- Philipp：Elasticの人。
- Kacper：Qdrantの人。

質問は次のようなものでした。

最初の質問：スケールの話。スケールアウトかな？
2つ目の質問：どんなアプリケーションが適していないか？
3つ目の質問：どうやってAIをサポートできるの？
4つ目の質問：どうやってコミュニティにアプローチしてる？
5つ目の質問：自分の検索エンジンが使えない時に何を使う？
6つ目の質問：今後に何が面白そう？
最後の質問：あなたの検索エンジンが使われてるユースケースで一番好きなものは？

2つ目や5つ目の質問が面白いですよね。実際の内容はぜひビデオを見ていただくのがいいかと（メモも取ったけど、聞いてもらうほうが面白そうだし）。

What’s coming next with Apache Lucene?

セッションページ：What’s coming next with Apache Lucene?
動画：Uwe Schindler - What’s coming next with Apache Lucene? - YouTube

毎年恒例Uweさん。今年Luceneが25周年という話で、これまでの進化の話を駆け足でしてくれました。あとは、後半は来週9.7が出るよということで、9.7で入ってくるベクトルの距離計算の最適化に関して説明してくれています。次のバージョンのElasticsearchでもこの最適化が使えるようになるという話もされていましたので、ベクトル検索を使ってる方は、次のバージョンも楽しみですね。

Building MLOps Infrastructure at Japan’s Largest C2C E-Commerce Site

セッションページ：Building MLOps Infrastructure at Japan’s Largest C2C E-Commerce Site
動画：Berlin Buzzwords 2023： Building MLOps Infrastructure at Japan’s Largest C2C E-Commerce Site - YouTube

メルカリの検索システムに関係しているMLOps周りがどうやって進化してきたのか？という話でした。英語にいらすとやの絵があるスライドがドイツで使われているのがとても新鮮ですｗ

Highly Available Search at Shopify

セッションページ：Highly Available Search at Shopify
動画：Khosrow Ebrahimpour - Highly Available Search at Shopify - YouTube

Shopifyの検索プラットフォームチームの人の、Shopifyの検索プラットフォームがどういったものか？（EsとKafka使ってる）どんな工夫をしているか？という話です。 Kubeconでも他の同僚の方が話をされている見たいで、そちらも参考になるとのことでした（動画）。スキーマ変更時の話とかもあり、実践的でした。最後に将来的な話でやはりベクトル検索というキーワードが出てきていました。あとは、データ量が大きいのでスケーリングの挑戦もあるとのこと。

Using Dense Vector search at the EU Publications Office

セッションページ：Using Dense Vector search at the EU Publications Office
動画：Martin Bayton - Using Dense Vector search at the EU Publications Office - YouTube

EUのPublication Office（日本だと公文書館とかになるのかなぁ？）の検索サービスで、Googleみたいなこと（検索結果の上にスニペットが出たり、そこにハイライトされたり）をやってみたいよね？という話みたいでした。実際公開してるかはわからないですが、途中からはPureinsightsという会社のプラットフォームで似たようなことをやるデモになってました。

Googleでも12%のクエリが、質問の自然文になっているという話で、検索結果にナレッジグラフからの情報（スニペットとか、質問に対する答えとか、地図とか）が出るようになってきていますと。それをPublication Officeのデータで再現したデモを行った後に、どんな感じのアーキテクチャなのか？という概略を説明されています。国会図書館とかの検索サービスやってる方が興味を持ったりするかもなーと思ったり、思わなかったり？

Learning to hybrid search

セッションページ：Learning to hybrid search
動画：Berlin Buzzwords 2023： Learning to hybrid search - YouTube

これまたキーワード検索とセマンティック検索のハイブリッドの話です。よくハイブリッド検索というのを聞きますが、データだったりベンチマークなどの話があまりないですよね？昨年AmazonがECSIというデータセットを公開したりしています（rejasupotaroさんが年末に書かれた記事にも出てきていました）。これにLearn to Rankとかもテストできるようなデータ（レビューや評価、カテゴリーとか）を拡張したものを作って、それをもとにいろいろとハイブリッド検索で精度を測ってみたというお話でした。 Metarankというリランキングエンジンの会社の方たちで、Metarankを使ってハイブリッドな検索結果のリランキングで精度がどのように上げられるか？という話です。今年のTRECのProduct Search Trackの話もされていました。これが元ネタのブログかな？

Catch the fraud — with observability and analytics

セッションページ：Catch the fraud — with observability and analytics
動画：まだ？

最後は元同僚のセッションです。こちらは検索ではなく、ちょっと自虐的なネタをもとにしたオブザバビリティおよび分析のお話です。コミュニティの人たちの貢献（ブログ書いたりプルリク送ったり、どこかで話をしたり）を計測して、年間の貢献者に対してプレゼントを上げるというのをやっているみたいです。で、昨年の最も貢献した人にMac Bookをプレゼントするというすばらしい（暴挙）話で、チートしようとした人がいてそれを分析した話でしたｗ締め切り直前に信じられない量の貢献したという登録がブラジルからあり、何かおかしいよね？ということで、Elastic Stackのオブザバビリティの機能などを元に分析してチートした人を除外していったよという話でした。 Kibanaが使いやすくなってるのがわかるセッションで面白かったです。

まとめ

検索がまたすごく盛り上がってきたなーという時間があるカンファレンスでした。みんな似たような話（ベクトル検索、LLM、AIなど）だったりしますが、知らないプロダクトで興味が出てくるものもあったし、Amazonのデータセットがあるからいろいろ試してみることもできそうだなぁと。

すでにビデオが公開されはじめているので、気になったセッションのビデオも見てから後日またブログを書こうとおもいます（たぶん、一覧が作成されるので後日リンクを貼っておきます）。

来年の予定（6月11日から開催）も公開されていましたし。来年も楽しみですね。来年はプロダクションでベクトル検索やってみた話とかがさらに出てくるのかなぁ？