こんな夢を見た

修士学生による自然言語処理研究の記録。主にDeep LearningやEmbedding関連論文の軽い自分用まとめとして。内容に誤りが含まれている場合があります。お気軽にご指摘ください。

A Recursive Recurrent Neural Network for Statistical Machine Translation

A Recursive Recurrent Neural Network for Statistical Machine Translation
Shujie Liu and Nan Yang and Mu Li and Ming Zhou, 2014, ACL

Recursive Recurrent Neural Networkを用いた統計的翻訳。

RecursiveかつRecurrentのモデルを提案。それでちゃんとRecursiveの構成情報とRecurrentの文脈情報を共に使ったので機械翻訳の精度が上がりましたよという話。機械翻訳のように大域的に文全体の情報を使わないと解けないと思われているタスクではRecurrentが優勢なように思える。ただし、Recurrentモデルの大半は「全体の情報を使える!」という感じの抽象的な説明だけで、何が起きているのかの理解が不完全なので個人的にはあまり好みでないモデルだ。前向きにせよ後向きにせよ双方向にせよ、伝播してくる情報のごちゃまぜ感はどうにかならないのだろうか。

それはさておき、肝心の二つの再帰モデルの融合モデル(R2NN)の説明がよくわからない。recurrent input vectorと呼ばれるxはなんなのか(borrowed from recurrent neural networksと述べられている)。sの下付き添字はrecurrent NN的な時刻を示すものなのか、などなど謎だらけだ。式の全容が図とマッチしているようにも思えない。都合よく式などを無視して解釈すれば、「各ベクトルを構成するのは、recursive NNで組み上げられたベクトルsと、各フレーズ毎にrecurrent NNあるいは他の素性作成器でどうにかして作られたベクトルxを、あわせたもの」というように見える。もちろんこの説明通りだったとしても、recurrent NNをどう用いてベクトルxを作ったかの説明は見当たらないが……。
Sam Bowman氏ですら理解に及んでいないようなので、やはり根本的な記述不足なのだろうか。
一応ACLのプレゼン自体もモデル説明と質疑だけさっと見たものの分からなかった。

この論文への興味は融合モデルそのものがメインの対象だったけど、どうにも精度向上の説明としてはその他の部分の方がむしろ重要な気がする。とはいえ、機械翻訳に疎くて既存研究からどれほど"跳んだ"アイデアなのかはわからない。

この論文での初出のアイデアではないが、木構造モデルの学習時にエラーの伝搬が難しいということの対策として、early updateという手法が使われていて有用そうに見えた。木構造などでそのNNモデルでビームサーチを行って正解候補を探索いくときに、正解が候補から漏れでた時点(階層)でそこのエラーを元にしてそこ以下の階層にupdateを行うというアイデア。なるほど確かにとなるアイデアだ。
論文内では引用としてMax-Violation Perceptron and Forced Decoding for Scalable MT Training, Yu et al, 2013が出ているが、孫引きしたらIncremental parsing with the perceptron algorithm, Collins, 2004が初っぽかった。10年も経っているしアイデアも自然なので、自分が知らなかっただけで色んなところでよくやられていることなのかもしれない。なお、Max-Violationというのは、early updateが"初のエラー"以下に関して学習を行うのに対して、最もエラーが大きかったところから学習を行うらしい(学習の収束自体は速くなる)。

@Proceedings {export:215646, abstract = {In this paper, we propose a novel recursive recurrent neural network (R2NN) to model the end-to-end decoding process for statistical machine translation. R2NN is a combination of recursive neural network and recurrent neural network, and in turn integrates their respective capabilities: (1) new information can be used to generate the next hidden state, like recurrent neural networks, so that language model and translation model can be integrated naturally; (2) a tree structure can be built, as recursive neural networks, so as to generate the translation candidates in a bottom up manner. A semi-supervised training approach is proposed to train the parameters, and the phrase pair embedding is explored to model translation confidence directly. Experiments on a Chinese to English translation task show that our proposed R2NN can outperform the stateof- the-art baseline by about 1.5 points in BLEU.}, author = {Shujie Liu and Nan Yang and Mu Li and Ming Zhou}, month = {June}, publisher = {ACL}, title = {A Recursive Recurrent Neural Network for Statistical Machine Translation}, url = {http://research.microsoft.com/apps/pubs/default.aspx?id=215646}, year = {2014}, }