@johtaniの日記 2nd

@johtani ‘s blog 2nd edition

「自然言語処理の基本と技術」を読んでる

久々のポスト。。。

久々に、技術書読んでます。「自然言語処理の基本と技術」という本です。

監修の方のツイートを見て気になったので、買ってみました。 書籍のサイトの説明はこんな感じでした。

本書は、この未来に不可欠となるに違いない自然言語処理の、技術的、ビジネス的基礎知識をくまなくコンパクトに図解した一冊です。 著者陣もそれぞれの分野の第一線で活躍するエキスパート揃い!

確かに著者陣がすごいです。

まだ、「はじめに」と自分に関係のある「情報検索」の章を流し読みしただけなんですが、次のような特徴がある本です。

  • 平易な単語で説明してある(難しい専門用語が少ない)
  • 数式が出てこない(多分。少なくとも読んだ部分では見てない)
  • 説明には例と図解がある

情報検索の章で言うと、全文検索でよく使われる転置インデックス(索引という単語が使われてる)がなぜ必要なのか、どういう感じで作られるのか、 転置インデックスに利用する索引の単語をどうやって作るのか(文字N-Gramや形態素解析)、単語の正規化(ステミングやストップワード)などの説明が 本当にわかりやすく書かれています。 スコアリングについても触れられています。

Elasticsearchも転置インデックスを用いた検索を行っており、 MappingでAnalyzerの指定をしている理由などの理解に役に立つと思います。

全文検索システムがどのように検索を処理しているかをざっくり理解するのにはもってこいじゃないかと。 1点残念だなと思ったのは、書籍に「索引」がありませんでした(本の索引を思い浮かべてくださいっていう説明あったんだけど)。。。 Kindle版を購入すれば「検索」できるのかな?

ということで、まだ、流し読みしただけなんですが、「すごく」オススメです。 購入はこちらから!

Comments