JJUG ナイトセミナーでLuceneの簡単な紹介をしてきました。#JJUG

Posted by johtani on Wednesday, December 17, 2014

目次

「【東京】JJUG ナイト・セミナー「機械学習・自然言語処理特集!」12/17(水)開催」でLuceneの話をしてきました。 本当にごく簡単な入門です。 Luceneをさわるきっかけにしてもらえたら嬉しいです。

そのほかにも面白い話が聞けましたので、簡単ですがメモを。

JJUGの2014年振り返り

  • だいたい、毎月ナイトセミナーかCCCを開催
  • イベント系に、のべ3100名が参加

Java でカジュアルにはじめる機械学習

小宮 篤史さん(スマートニュース株式会社)

スライド:#JJUG - Java でカジュアルにはじめる機械学習
ブログ:#JJUG ナイトセミナー「機械学習・自然言語処理特集!」で Java でカジュアルに機械学習する話をしてきました

  • ガチの人は寝ててください。
  • 機械学習でできること
    • 分類・識別
    • 予測・回帰
    • パターンマイニング・アソシエーションルール
    • クラスタリング
  • 上2つは教師あり学習/下2つは教師なし学習
  • データとしては、日構造では扱えないので、「特徴量」を抽出して「特徴ベクトル」を作って、処理をするのが機械学習

得られた結果の正しさの測定などなど

  • 機械学習の実装は辛いので、車輪の再発明をやめましょう!

Javaで使える機械学習

  • Weka:とりあえず使ってみるならこれ?
  • MLlib:Sparkで使われてる
  • Mahout:オワコン?
  • SAMOA:Stormの上で利用できる
  • Jubatus:Javaクライアントあり。
  • h2o:Deep learningをJavaでやるなら、これ。
  • ほかにもあったけど、スライド見ていただければ。

機械学習をはじめるのに使えるデータセット

  • UCI Machine learning repository

    • Iris(アヤメデータ)は機械学習界のHello world
  • Wekaを使ったサンプルコード

Spark/MLlibではじめるスケーラブルな機械学習

猿田 浩輔さん(株式会社エヌ・ティ・ティ・データ)

スライド:(後日、リンクがあれば更新予定)

* Spark+MLlibを語る上で外せない話題

  • Hadoopとの違い?

  • まずはHadoopの話

  • HadoopによるK-meansのデモ

  • Hadoopの問題点に対するSparkの解決策

  • Spark 1.0系からJava8で書ける

QA:

Q: データをキャッシュできるという話でしたが、キャッシュするということは、ジョブが途中で失敗した場合は最初からやり直しになるのでしょうか? A: キャッシュしたデータが残っている場合は、途中から再開出来ます。キャッシュしたデータを持ったマシンがこけたら、最初からやり直しです。

Luceneと日本語の検索

自分

スライド:Luceneと日本語の検索 サンプルのリポジトリ:jjug-example

自然言語処理にからめて何か話をしてくださいと話を受けていたのですが、自然言語処理については「形態素解析」くらいしか出てこなかったですけど。。。 Luceneがどんなものかを超概要で話をしてみました。少しでもLuceneがどんなものかをわかってもらえたら嬉しいです。

もっと詳しく知りたい方は、スライドにある参考資料などを見ていただければと。

Javaで書くのもいいんですが、もっと簡単に検索したい場合はElasticsearchを使うのが便利ですよ!で締めくくりたかったのですが、発表では失敗してしまいました。。。 Elasticsearchの起動からデータ登録、検索まではこちらのスライドを見ていただければ簡単さがわかると思います。

また、Kuromojiを利用した時に、Tokenizerなどが出力するTokenの品詞情報を見たい場合に便利なElasticsearch用プラグインも作っています。 こちらも、Elasticsearchと一緒に使ってみてください。

まとめ

機械学習に関していろんなツールがあるのだなぁと。 懇親会でもちょっと話しましたが、アルゴリズムの選定とか、アルゴリズムに適したデータの作成など、前処理のノウハウとかが大変そうだなぁといつも思います。 機械学習はいつもぼやーっとしか理解してないので。。。

JJUGさんはYouTubeの動画もあるようなので、過去の面白そうなセミナーも合わせてみてみると面白いと思います。

毎度のことですが、なんでも良いので、発表した後のフィードバックをいただけるとうれしいです。 今後の励みや改善につながるので。


comments powered by Disqus

See Also by Hugo


Related by prelims-cli