When Are Tree Structures Necessary for Deep Learning of Representations?

When Are Tree Structures Necessary for Deep Learning of Representations?
Jiwei Li, Dan Jurafsky, Eudard Hovy, 2015, arXiv

言語処理のDeep Learningにおける木構造モデルの必要性。

言語処理のDeep Learningでは、単語の可変長入力に対応するための再帰的な仕組みが求められ、Recursive Neural modelとRecurrent Neural modelの2つが主に利用されている。さて、Recurrentは単なるシーケンス（文そのまま）を、Recursiveは木構造（構文木）をとるが、言語処理の様々なタスクにおいてどちらに優位性があるのだろうか、という趣旨の論文。まとめ的論文なだけあって読みやすい。

(1) Sentence-level Sentiment Classification (極性判定)
(2) Sentence-Target Matching (擬似QA) (Iyyer et al., 2014)
(3) Semantic Relation Classification
(4) Discourse Parsing

の4つのタスクについて、RecursiveとRecurrentそれぞれの(i)普通、(ii)RNTN、(iii)LSTM、(iv)双方向、(v)双方向+LSTMの5モデル（計10モデル）を適用して性能を評価している。タスクによっては適用困難な幾つかのモデルを排除。

最適化手法はAdaGrad、隠れ層は1つ、等あれこれ条件は統一しているらしいが、厳密に公平なモデル作成・評価は非常に難しいと著者も触れている（モデルの細部条件を統一すると各モデルはベストの性能を出せないため、その面では公平とはいえない）。

結果として、(1)(2)(4)ではほぼ拮抗で、(3)ではRecursive優位といった具合だった。拮抗の方では各モデルにおいて差が高々0.01pt程度だが、(3)では0.04〜0.06ptほどの差がある。また、両モデルについて全体として(i)<(ii)<(iii)⪋(iv)<(v)という性能差が出ている。

(3)のSemantic Relationで高性能をとったことから、Recursiveは細かい粒度のトークンの成分を鮮明にかつ遠距離まで保持する必要があるタスクで有用だと考えられる。

一見、(1)(2)(4)のタスクでもその条件にあてはまりそうだが、(2)そもそもの最適化の目的関数が雑なため（質問文の各合成ベクトル全てと回答文の合成ベクトルとの距離を最小化）、(1)や(4)は（本質的には）高度に様々な言語要素が積み重なった上でのタスクとなるため難易度が高すぎたということだろうか。私見。

余談。RecursiveとRecurrentの2つ、しばしばRNNと略され、再帰ニューラルネットと訳され、非常にまぎらわしい。一応RecursiveはRecurrentの一般化として捉えることができそうなので、後者はもうちょっと付加的な命名になればいいのに。
さらなる余談。主著者のJiwei LiはEMNLP 2014に主著で4本論文を通していて驚いた。

@article{DBLP:journals/corr/LiJH15, author = {Jiwei Li and Dan Jurafsky and Eduard H. Hovy}, title = {When Are Tree Structures Necessary for Deep Learning of Representations?}, journal = {CoRR}, volume = {abs/1503.00185}, year = {2015}, url = {http://arxiv.org/abs/1503.00185}, timestamp = {Thu, 09 Apr 2015 11:33:20 +0200}, biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/LiJH15}, bibsource = {dblp computer science bibliography, http://dblp.org} }

こんな夢を見た

修士学生による自然言語処理研究の記録。主にDeep LearningやEmbedding関連論文の軽い自分用まとめとして。内容に誤りが含まれている場合があります。お気軽にご指摘ください。

When Are Tree Structures Necessary for Deep Learning of Representations?