こんな夢を見た

修士学生による自然言語処理研究の記録。主にDeep LearningやEmbedding関連論文の軽い自分用まとめとして。内容に誤りが含まれている場合があります。お気軽にご指摘ください。

Bidirectional Recursive Neural Networks for Token-Level Labeling with Structure

Bidirectional Recursive Neural Networks for Token-Level Labeling with Structure
Ozan İrsoy, Claire Cardie, 2013, NIPS Deep Learning Workshop

双方向Recursive Neural Networkによるトークンレベルでの構造的なラベルの付与。

双方向Recurrent NNに対抗して双方向Recursive NNを提案。それらの性能差を評価表現抽出タスクで実験。
双方向Recurrentでは文前向きと後向きでそれぞれ独立に合成ベクトルを算出するが、(この論文での)双方向Recursiveでは各トークンから構造木に沿って上向きに合成していき、その後唯一の文ベクトルが生成された後に、それ(と各自の上向きベクトル)を用いて構造木に沿って下向きに伝搬しながら新たなベクトルを生成していく形になっている。最後に各トークンの2種のベクトルを個別に重み行列をかけたものの和を使って出力を行う点は同じ。
実験は双方向recurrent、双方向recursive、そしてそれらの(softmax関数に通す前の)出力の和を用いてsoftmaxするという融合モデルの3つで行われている。実験結果はラベル種別やタスクの細かい違いによって分かれており、どれかのモデルが全てで勝ったというようなことはない。
そのためまとめが言いづらいが、ざっくばらんには「文内の長距離的なトークンの文脈情報が必要なときはRecursive優位、そうでなければRecurrentが(なぜかは知らないが)優位」という感じだと思われる。融合モデルも結構強い。詳細は論文を。
双方向recursiveの弱点として、下上下というように折り返すようにして一貫した伝搬を行っているために、結果的に深い伝搬をするモデルになってしまっており重みの学習が難しくなっていると述べられている。単純な伝搬回数であれば平均的にはrecurrentと同程度な気もするが、多く伝搬した後のベクトルがどれほど影響力を持つかという点では、確かにrecursiveの方が大きいはずだ。
対策としてはSocherの半教師ありオートエンコーダによるpretrainingが挙げられている。
なお、単語ベクトルはCollobert-Westonのものを固定(再学習はしない)で用いて、構文木の生成にはStanford PCFG Parserを利用していた。

@article{DBLP:journals/corr/IrsoyC13, author = {Ozan Irsoy and Claire Cardie}, title = {Bidirectional Recursive Neural Networks for Token-Level Labeling with Structure}, journal = {CoRR}, volume = {abs/1312.0493}, year = {2013}, url = {http://arxiv.org/abs/1312.0493}, timestamp = {Mon, 06 Jan 2014 15:10:41 +0100}, biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/IrsoyC13}, bibsource = {dblp computer science bibliography, http://dblp.org} }