#DSIRNLP 3.5に参加しました。＆「Emacs実践入門」を頂いちゃいました！(Jugemより移植)

で、内容です。残念ながら、本編の3回めには参加していなかったのですが、今回も濃い話が聞けたので楽しかったです。論文読まなかったり、基礎を勉強したのに忘れてたりと抜けてる部分が多いので、こういう機会が与えてもらえるというだけで目からうろこです。

@kumagiさんの「あなたの知らないハッシュテーブルの世界」はハッシュテーブルの基本的な話から、最近の論文で発表されてる内容までをカバーする幅広いお話で面白かったです。（大学でやってると思うんだけどすっかり抜けてる自分がなんとも。。。）こういうコアな中身も知ってると、色々とプログラム書いたりするときの見方や考え方も変わってきますよね。（そんなプログラム書いてないけど。。。）で、随分おとなしい内容だなぁ？と思いきや、途中からちゃんとLock-Freeの話も出てきてさすがと感心させられましたｗ最後はJubatusの宣伝まで入ってたし。（某氏のすごい写真入りで。。。）

@hitoshi_niさんの文書要約の話は、NLPに興味があるので、楽しみにしていた内容でした。今回もなめらかによどみなく喋られる発表にただただ感心させられるばかりでした。内容は中級編ということで、文書要約のキモになる処理の文章の短縮の話です。係り受け木を元にする手法をわかりやすく説明されて、もうなんか、すぐに実装できちゃうんじゃないかと錯覚してしまう始末でした。係り受け解析というと、CaboChaを思い浮かべてしまうんですが、きっと違う実装なんだろうなぁ。入門編と次回の重要文抽出の話も聞きたいなぁと。

最後に、技術評論社さんから「Emacs実践入門」など3冊の書籍のプレゼントまでありました。その他の2冊は購入済みだったのですが、Emacs本は購入したいリストに入れたままでした。ということで、欲しいですというアピールをしてゲットしてきました！ Emacsはなんだかんだで、もう10年以上使っていますが、そこまで深入りしないような使い方をしていました。これを機に、再入門してもっと使いこなせるようになろうかと。また、読了したタイミングでブログに感想かきます。

ということで、以下はいつもの自分用のメモになります。おかしいところ、それ書いちゃダメでしょ的なところのツッコミをいただければ。


日時：2012年11月28日(水) 19:00
場所：渋谷ヒカリエ27F NHN Japan カフェ


◎開会、諸注意など　@overlast
　人材募集、会場説明など。
　前回、本をもらった人はブログ書いてね。オライリー様より
　今回も本のプレゼントあり。技術評論社様より

◎あなたの知らないハッシュテーブルの世界(30分 + 質疑応答10分)　@kumagi さん
　・まずは前提。
　　データの集合を扱いたいよね
　　配列でもできるね。けど、データ増えるとキツイね。
　・ハッシュ関数の話から。
　　リハッシュとかの話
　・ClosedAddressingとOpenAddressingの話
　・ClosedAddressingの場合、ポインタ使ってるからキャッシュミスあり。
　　メモリとかの話
　・OpenAddressingメモリに乗るのでキャッシュミスは少ないけど、削除データの扱いがちょっと大変
　　→削除がいっぱい有ると処理が面倒
　・RubyはClosedAddressing、PythonはOpenAddressing
　　memcachedはClosedAddressing
　・Cuckoo Hashing（2001）
　　密度50%以上になると急にコストが高くなる。
　　挿入がすごく遅くなる。追い出し操作が増えるから？
　・そこで、Hopscotch
　　ググった参考ページ：http://shnya.jp/blog/?p=639
　　http://en.wikipedia.org/wiki/Hopscotch_hashing
　　密度が上がっても性能劣化がない。
　・C++でHashtableが欲しくなったら、google_sparse_hashとdense使うよと。
　・ConcurrentHashmapのお話
　　テーブル部分がvolatile、Chain部分はfinal
　　insertはChainの先頭に。
　　削除は遅い。ReadCopyUpdate。
　　空でも1.7M（K？）持ってく
　・ここからはLock-free系
　　・Lock-Free Hash Table
　　　http://www.azulsystems.com/events/javaone_2007/2007_LockFreeHash.pdf
　　　HotSpot VMの人のもの？こんなのやってる。http://www.0xdata.com/faq.html
　　・（聞きそびれた）
　　・日立謹製Lock-free hashtable
　　　日立のDBで使ってる部品？
　　　ベンチマークが胡散臭い
　　・最後はJubatusのCM
　
◎文書要約入門 中級編(40分 + 質疑応答10分)　@hitoshi_ni
　・画数が少ないです。
　・ヒカリエ綺麗ですね。
　・文書要約とは？
　　「機械に」要約させる。
　・なんで要約？
　　長い文章読みたくない。人件費の削減
　・どうやって要約？
　　1.文分割：文書を文に分割
　　2.文短縮：就職説を削除するなどして、原文より短い文の亜種を出す。
　　3.重要文抽出：要約にふさわしい文を選び出す。
　・今回は文短縮について
　・動機
　　長い文は文抽出で扱いにくい
　　文の中にも重要なところとそうでないとこがある
　・係り受け木の剪定すると短くできると。
　　剪定のルール
　　　中間ノードは落としちゃダメ
　　除去の時に考えること
　　　重要度
　　　言語
　・重要度？
　　文節に点数を付ける
　　文書集合中の出現頻度とかを採用。訓練データからでもいいよ（ロジスティック回帰とか）。
　・言語尤度
　　言語としての尤もらしさ
　　典型的にn-gram言語モデルを使う
　・そして探索
　　基本的には2値ラベリング
　　ビタビアルゴリズムではだめ。係り受け制約が考慮できない
　　ナイーブいはビームサーチをする。
　・文短縮の評価
　　・人間が書いた短縮文と比較
　　・ROUGE-Lという尺度などで評価（これしらないなぁ。）
　・幾つかの論点
　　係り受け解析しない
　　文節じゃなくて、単語単位でもいいよねとか。
　Q：硬い文章以外の要約ってやってるの？
　A：あります。
　　　技術的な話だと、係り受け解析がうまく出来ればできる。
　　　係り受け解析がうまくいけば、そこまで大変じゃない。
　Q：短さが短くなるほど難易度があがるけどどこまでやってます？
　A：短くすればするほど難しい。これは情報の欠落が激しくなるから。
　　　文法性を担保するのも難しい。
　　　10文字くらいならできそう。
　Q：実例としてどのくらいの長さをどのくらい短くしてる？
　A：ある程度の長さを20文字にしてくれとか。Twitterに入るくらいにしてくれとか。

頂いちゃいました！

Emacs実践入門　～思考を直感的にコード化し、開発を加速する (WEB+DB PRESS plus)

#DSIRNLP 3.5に参加しました。＆「Emacs実践入門」を頂いちゃいました！(Jugemより移植)

目次

See Also by Hugo

Related by prelims-cli

FEATURED TAGS

ARCHIVE BY YEAR