目次
JustTechTalk#02 形態素解析のあれやこれや@ジャストシステム
に参加してきました。 ジャストシステムさんの形態素解析器JMATの話とKagome、Janome、Kuromoji.js、ssslaの開発者の パネルディスカッションでした。
ということで、いつものメモです。
ジャストシステムの形態素解析その2(機械学習編)
-
JMATの話
- 前回は辞書の話
- 今回は学習の話
-
教師あり/教師なし
- JMATは教師あり
- 教師なしは研究段階
-
ラティス構造を辞書ベースで構築して、コストの総和が最小の経路を求める
- 連接、単語生成とか。
-
学習は3フェーズ
- ベース、能動、部分アノテーション
- ベース
- 300万文のコーパスから1万文のみを利用(なぜ?今から説明)
- 64GBマシン買ってみたけど、複数実験するには追いつかない
- オンライン学習がメジャーでない時代に作り始めたので、つかってない
- CRF学習器を改善
- 結果として50万文くらいで精度が良くなる
- 辞書チームからNGがでて、方向転換
- 300万文のコーパスから1万文のみを利用(なぜ?今から説明)
- 方向転換した結果が3つのフェーズらしい
- ピタジョブに採用?
疑問
* JMATって、Webの検索の前処理とか分類とかに主に利用するのかな?
- ATOKでもこのノウハウって利用してるんかな?
- 辞書もあるらしいけど、辞書更新されると学習器のデータとかどーなるんだろ?
形態素解析器の実装言語Talkについて
-
kuromoji.jsの@takuya_aさん
- Typed Arrayサポートが高速にできてる理由でもあるらしい
-
Kagomeの@ikawahaさん
- Goはいろいろないらしい
-
Janomeの@moco_betaさん
-
sssla(茶筌のRuby clone)
-
なんで作ったの?
- 形態素解析の
ライブラリ「解析部分」はNLPのHelloWorldだから
- 形態素解析の
-
なんで、その言語?
- Python 3系は文字列とバイト配列の扱いがすごく楽!
-
その言語で困った点は?
- Goだと、辞書を内包するのが大変
- JSは苦労したところしかない(1hくらいしゃべれるぞ!)。基本的なデータ構造とかもない
- Pythonはパフォーマンスを考えないと
- Ruby(1.6だったので)もパフォーマンスが
-
その言語を開発するときに必須のものは?
- Goはとくにない。エディタはどれでもOK
- browserifyが便利
* ほかの人たちの言語をdisってください * JSは論外。Pythonのコードフォーマッターが揺れるのが。。。Rubyはバージョンが。。。 * Goはブラウザで動かない。Pythonもブラウザで動かない。Rubyも(ry * ほかのは触ったことないので。。。 * Pythonは2.xか3.xか決めてくれ!
- なんで、Kuromojiベースなの?
- Java読みやすいから。
- MeCabとKuromojiの違いは?
- 未知語の処理が結構違う
感想
きれいなロビーで良かったのですが、マイクがあると嬉しかったかもしれません。 前回の辞書の話も聞いてみたかったかも。
comments powered by Disqus
See Also by Hugo
- 「よくわかるAmazon #CloudSearch 」に行ってきました!
- Domain-Specific Pretraining for Vertical Search: Case Study on Biomedical Literatureという論文を読んだ
- 検索座談会ってのをやってみた
- 第1回ElasticSearch勉強会を開催しました! #elasticsearchjp
- Heroku JP Meetup #4に参加しました。#herokujp(Jugemより移植)