こんな夢を見た

修士学生による自然言語処理研究の記録。主にDeep LearningやEmbedding関連論文の軽い自分用まとめとして。内容に誤りが含まれている場合があります。お気軽にご指摘ください。

Global Belief Recursive Neural Networks

Global Belief Recursive Neural Networks
Romain Paulus, Richard Socher, Christopher D. Manning, 2014, NIPS

大局的な伝播を行うRecursive Neural Networks。
文全体のコンテクストを各トークンやフレーズに伝播させるための枠組みとして、上向きにrecursive合成を行ったのちにてっぺんから下向きにベクトルを生成していく。
Isroyらの双方向recursive(まとめ)モデルと同じようなコンセプトであるが、下向きベクトルの生成(伝播)方法が少し異なる。その差は少しではあるが決定的なようで、フレーズの極性分類タスク(SemEval 2013 Task 2)での実験結果はしっかりとIsroyらのモデルに勝っている。

具体的には、左側の子aと右側の子bをもつ親ノードがpで、それぞれの上向き,下向きベクトルを↑a, ↓aと表すとすると、
こちらは ↓a = Wlf・↑p + Wlb・↓p、↓b = Wrf・↑p + Wrb・↓p
Isroyらは ↓a = Wf・↑a + Wlb・↓p、↓b = Wf・↑b + Wrb・↓p
となる。
異なっているのは第一項。重み行列とベクトルの掛け合わせが、(左or右専用行列)・(親の上向きベクトル) なのか (左右併用行列)・(子自身の上向きベクトル) の違いである。

少なくともこちらの方がパラメータも増えて表現力が高くなっているので精度向上は直感的には納得である。これによってどう影響がでるかというロジックが少しだけ論文内(P6。A closer 〜)で語られているものの、個人的には特に説得力がある内容ではなかった。(そもそもそこの文章、各表現が何を指し示しているのかが少しわかりづらい)

他の特徴的な優良アイデアは、単語ベクトルについて。単語ベクトルは130次元のものを最終的に使っているが、そのうち100次元はpretrainedのベクトルを固定で使い、残り30次元は新たに(教師ありの伝播で)学習している。

@incollection{NIPS2014_5275, Publisher = {Curran Associates, Inc.}, Title = {Global Belief Recursive Neural Networks}, Url = {http://papers.nips.cc/paper/5275-global-belief-recursive-neural-networks.pdf}, Booktitle = {Advances in Neural Information Processing Systems 27}, Author = {Romain Paulus and Richard Socher and Christopher D. Manning}, Editor = {Z. Ghahramani and M. Welling and C. Cortes and N.d. Lawrence and K.q. Weinberger}, Year = {2014}, Pages = {2888--2896} }