@johtaniの日記 2nd

@johtani ‘s blog 2nd edition

Hatena Engineer Seminar #5 @ Tokyoに参加しました。 #hatenatech

ひさびさに、勉強会メモ。 Hatena Engineer Seminar #5 @ Tokyoに当選したので行ってきました。

いつもは近寄らないオシャレな街をドキドキしながら行ってきました。

ということで、簡単なメモです。

はてなブックマーク全文検索の精度改善 id:takuya-a

問題:検索精度がよくない

  • 京都で検索 → 「ポーランドの京都」「京都大学のまるまる教授」のようなもんがヒット
  • 京都っぽいエントリが出て欲しい。
    • 京都っぽい???
  • 問題点をブレイクダウン

    課題

  • クエリ考えるの大変だよね
  • 順序が新着順なのが辛い
  • 適合率と再現率の両立

そして(ドラムロール)、できました!(さすが)

アイデア:はてブのタグを利用する。 関連キーワードを抽出して、クエリ拡張する。

関連キーワードとは?

  1. タグ検索する
  2. 検索にヒットしたTerm Vectorsを取得
  3. 特徴語をTop25件取得
  4. もっともスコアが高いタームを特徴語とする
    • 英語のストップワードとかが問題点となってたり。
    • →Dynamic stop word listというのを利用して排除(IDF、RIDF、Gain)

今後の課題

  • 再現率の向上
  • 解析用のフィールド・辞書を追加(精度向上や解析ミスなど)

トークに出てきた機能など

トークに出てきたElasticsearchの機能については、こんなツイートをしてたので、参考にしてもらえれば。

個人的な疑問

Q:クエリにヒットするタグがそもそもなかったら?

はてなブックマークに基づく関連記事レコメンドエンジンの開発 id:skozawa

課題:一部のエントリに対して関連記事が出ない

タグがない記事について関連エントリが出ない=既存はタグを利用している 例:レシピで考える

現行システム

  • ユーザがつけたタグ情報を利用してMoreLikeThisで計算

新規システム

  1. 類似記事検索
  2. 特徴語の抽出
  3. 特徴語を分類
  4. 関連記事検索
  5. 関連記事をスコアリング

個人的な疑問

Q:毎回計算してるのかな?記事登録とかされたタイミングでやってるのかな? Q:Termの精度などどうなんだろ?

『BrandSafe はてな』のアドベリフィケーションのしくみ id:tarao

BrandSafeはてな:とか。 広告の配信先をフィルタリング

複数の素朴なフィルタの組み合わせ→AdaBoost

個人的な疑問

Q:海外とかもいけるのかな?

まとめと感想

ということで、簡単なメモでした。ピザごちそうさまでした! 聞いてて少し思ったのは、データ量があるサイトだからうまくいく手法だというのもあるんだろうなというところでした。 あとは、クエリを暗に改善するのとは別に、サジェスト的に表示するのにも使えたりするかも?と思ってみたり。 できるかどうかはわからないですが。。。

Elasticsearchをいろいろと活用してもらってるのがわかって、楽しい勉強会でした。 もっともっといろんなところで宣伝してくださいw

今日の勉強会を聞いて、俄然、京都・大阪でElasticsearch勉強会を開催したい気になってきました。 特に大阪に知り合いがいないので、だれか紹介してもらえると嬉しいです。 お待ちしてます。

Comments