こんな夢を見た

修士学生による自然言語処理研究の記録。主にDeep LearningやEmbedding関連論文の軽い自分用まとめとして。内容に誤りが含まれている場合があります。お気軽にご指摘ください。

Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank

Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank
Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Chris Manning, Andrew Ng and Chris Potts. 2013, EMNLP
Socher site

Recursiveモデルで感情極性。
個人的にはかなりインパクトのある論文。この論文に関しては色んな論文紹介が各所に上がっている。
大きなポイントは2点。1. 極性の構成性を緻密に学習(実験)するために文の構造木それぞれのノードに対して極性をアノテートしたデータセット(Sentiment Treebank)を作った。2. Recursive Neural Tensor Network(RNTN)という表現力を増したモデルを提案した。

精度もかなり出ていて今までのstate-of-the-artを5%以上上回っている。なお、既存手法でさえも新たに作った粒度の細かいデータを用いて学習した場合にかなりの精度の向上が見られている。

テンソル演算を用いたRNTNは、各ノードをベクトルと行列のペアで表現しながらマージしていく方法(MV-RNN)と同じく、2つの子ノードの相互作用を反映できるモデルになっていそうである。
とはいえパラメータ数が一気に増えることになるので、学習時間や過学習の点で取り扱い注意なモデルだろう。彼らはRNTNの学習が3〜5時間で終わったと書いているがそんなに速いものなのだろうか。
なお、今回の実験では各RNNモデル統一で、ベクトルの次元数を25〜35にしているようなので、少々RNTN以外には不公平な実験になっている気もする(pretrainedな単語ベクトルを用いているわけではないので学習データ量的に仕方ないことっぽいけども)。それともSentiment用の単語ベクトルとしてはむしろそもそもそのくらいが適当なのかもしれない。

@inproceedings{Socher-etal:2013, Location = {Seattle, WA}, Author = {Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D. and Ng, Andrew Y. and Potts, Christopher}, Booktitle = {Proceedings of the 2013 Conference on {E}mpirical {M}ethods in {N}atural {L}anguage {P}rocessing}, Month = {October}, Publisher = {Association for Computational Linguistics}, Address = {Stroudsburg, PA}, Title = {Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank}, Pages = {1631--1642}, Year = {2013}}