JustTechTalk#02 形態素解析のあれやこれや@ジャストシステムに参加しました。

Posted by johtani on Monday, July 6, 2015

目次

JustTechTalk#02 形態素解析のあれやこれや@ジャストシステム

に参加してきました。 ジャストシステムさんの形態素解析器JMATの話とKagome、Janome、Kuromoji.js、ssslaの開発者の パネルディスカッションでした。

ということで、いつものメモです。

ジャストシステムの形態素解析その2(機械学習編)

  • JMATの話

    • 前回は辞書の話
    • 今回は学習の話
  • 教師あり/教師なし

    • JMATは教師あり
    • 教師なしは研究段階
  • ラティス構造を辞書ベースで構築して、コストの総和が最小の経路を求める

    • 連接、単語生成とか。
  • 学習は3フェーズ

    • ベース、能動、部分アノテーション
    • ベース
      • 300万文のコーパスから1万文のみを利用(なぜ?今から説明)
        • 64GBマシン買ってみたけど、複数実験するには追いつかない
        • オンライン学習がメジャーでない時代に作り始めたので、つかってない
        • CRF学習器を改善
          • 結果として50万文くらいで精度が良くなる
      • 辞書チームからNGがでて、方向転換
    • 方向転換した結果が3つのフェーズらしい
    • ピタジョブに採用?

疑問

* JMATって、Webの検索の前処理とか分類とかに主に利用するのかな?

  • ATOKでもこのノウハウって利用してるんかな?
  • 辞書もあるらしいけど、辞書更新されると学習器のデータとかどーなるんだろ?

形態素解析器の実装言語Talkについて

  • kuromoji.jsの@takuya_aさん

    • Typed Arrayサポートが高速にできてる理由でもあるらしい
  • Kagomeの@ikawahaさん

    • Goはいろいろないらしい
  • Janomeの@moco_betaさん

  • sssla(茶筌のRuby clone)

  • なんで作ったの?

    • 形態素解析のライブラリ「解析部分」はNLPのHelloWorldだから
  • なんで、その言語?

    • Python 3系は文字列とバイト配列の扱いがすごく楽!
  • その言語で困った点は?

    • Goだと、辞書を内包するのが大変
    • JSは苦労したところしかない(1hくらいしゃべれるぞ!)。基本的なデータ構造とかもない
    • Pythonはパフォーマンスを考えないと
    • Ruby(1.6だったので)もパフォーマンスが
  • その言語を開発するときに必須のものは?

    • Goはとくにない。エディタはどれでもOK
    • browserifyが便利

* ほかの人たちの言語をdisってください * JSは論外。Pythonのコードフォーマッターが揺れるのが。。。Rubyはバージョンが。。。 * Goはブラウザで動かない。Pythonもブラウザで動かない。Rubyも(ry * ほかのは触ったことないので。。。 * Pythonは2.xか3.xか決めてくれ!

  • なんで、Kuromojiベースなの?
    • Java読みやすいから。
  • MeCabとKuromojiの違いは?
    • 未知語の処理が結構違う

感想

きれいなロビーで良かったのですが、マイクがあると嬉しかったかもしれません。 前回の辞書の話も聞いてみたかったかも。


comments powered by Disqus

See Also by Hugo


Related by prelims-cli