Kuromojiを調べてみた(Jugemより移植)
以前から春山さんのブログ(リンク)や勉強会で耳にはしていたのですがソースは読んでいませんでした。 先日、Luceneにcontributeされた(リンク)ので軽くソースを読んでみました。
公式サイトはこちら
まずはMeCabのページにある比較表(リンク)を基準に特徴を調べてみました。せっかくなので、lucene-gosenも隣に。
Kuromoji lucene-gosen 解析モデル なし(学習機能なし) なし(学習機能なし) コスト推定 なし(学習機能なし) なし(学習機能なし) 学習モデル なし(学習機能なし) なし(学習機能なし) 辞書引きアルゴリズム Double Array Trie Double Array Trie 解探索アルゴリズム Viterbi Viterbi 連接表の実装 2次元 Table 3次元 Table 品詞の階層 無制限多階層品詞?ipadic、unidic形式に対応 無制限多階層品詞 未知語処理 字種 (動作定義を変更可能)(おそらく。) 字種(変更不可能) 制約つき解析 たぶん、不可? たぶん、不可? N-best解 不可能 不可能 こうやって比較してみるとlucene-gosen(Sen)とあまりかわりはありませんが、lucene-gosenが少し古いのがわかりますね。。。