@johtaniの日記 2nd

@johtani ‘s blog 2nd edition

Elasticsearch-extended-analyzeの改良

開発中ですと書きました、elasticsearch-extended-analyzeですが、改良しました。

改良と変更は以下のとおりです。

  • ソースのパッケージをorg.elasticsearchからinfo.johtaniに。MLで気になったので質問したら、変えたほうがいいよとのこと。ダウンロード化については、もう少々お待ちを。
  • 出力形式を変更。可能な限りCharFilter、Tokenizer、TokenFilterそれぞれが出力する内容を返すようにしました。
    • ただし、既存のAnalyzer(JapaneseAnalyzerクラスとか)に関しては、現時点では出力しません。CharFilterなどを取得するI/Fが見えないためです。(改良できるかの調査は未着手)

現時点でできてないのは以下の項目

  • pluginコマンドでインストール
  • 出力したいAttributeの指定
  • TokenizeChainで変更されたTokenの追跡(現状はどのTokenがStopFilterで消されたかなどが不明)
  • 画面の用意(簡単に確認できる画面)

ということで、README.mdに出力サンプルは貼り付けてるので、興味のある方は試してみてください。 不明点などあれば、コメントかIssueかツイートでも。

Comments