Mikolovのword2vec論文3本(2013)まとめ
- Linguistic Regularities in Continuous Space Word Representations.
- Efficient estimation of word representations in vector space
- Distributed representations of words and phrases and their compositionality
- Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig, 2013, NAACL
- Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, 2013, ICLR
- Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, Jeff Dean, 2013, NIPS
一応ちゃんと読んでおこうと思って改めて3つ読んでみたものの説明の雑さにもやもやは残ったままだ(引用をちゃんと読んでいないからかも)。
まだword2vecは提案していない。既に発表済みのRecurrent Neural Network Language Modelで作られたベクトルについて、実験してみたらよかったですという話。
アナロジータスクの詳細はこれに載っている。
syntactic taskではコーパス320M wordsに対して1600次元がベストになっている(他80,320,640も単調増加)。語彙数を他モデルに合わせて半部以下にして次元も80に落として比較実験してみると、nouns以外は他(Collobert&Weston, Mnih&Hinton)に勝った。nounsだけMnihがしっかり勝った。その2つの差は、全体を見るとそこまで大きくない。Mnihらのが良かった理由は学習データでかかったから、という身も蓋もないことを言っているが(37M wordsらしい)、Collobertらの学習データもTurianのものなら多分37Mだし(元のやつなら660M)だと思うので、筋が通らない(そもそも学習データ量の話に帰結してしまってはまともなモデル比較になっていないのでは)。自分の解釈が間違っているのかもしれない。なお、semanticでもまたstate of the artに勝っている。ここでSkip-gramとC-BOWが登場。モデルの説明がかなり端折られていて厳密性が薄いように見える。このモデルを支えている並列計算とかハフマン木とか使っての高速化(とそれにより可能になる高次元化)をむしろアピールしたいのかも。高次元化するならばコーパスでかくすることによる性能向上がより見込めるので、1.でのデータサイズ云々はこれを見越して、ついついそう結論付けちゃったのかもしれない。
あとはモデルの各パラメータによる性能比較。アナロジータスクは新しく作られている。文の穴埋め問題ではSkip-gramのベクトルとRNNLMでのベクトルを併用(?)すると性能が一番(Skip-gram, RNNLM, LBLM, LSAよりも)よかったらしい。他の併用モデルはやらなかったのか。C-BOWの話題はなし。Skip-gram、ハフマン木、ネガティブサンプリング、サブサンプリング、シンプルなフレーズ自動認識、そして実験。 2.よりもSkip-garmの説明は細かい(といっても簡素だが)。
雑に言ってしまえばハフマン木よりネガティブサンプリングの方が性能がよさそう(サンプリング数は15にしている)。またサブサンプリングはやったほうがまず確実にいいようだ。
ある程度word2vecに関して耳にしているのならば、たぶんこの論文だけ読むのが一番効率良さそう。
word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method
こんな資料を読むのもいいかも。
@inproceedings{mikolov2013linguistic, title={Linguistic Regularities in Continuous Space Word Representations.}, author={Mikolov, Tomas and Yih, Wen-tau and Zweig, Geoffrey}, booktitle={HLT-NAACL}, pages={746--751}, year={2013} }
@article{DBLP:journals/corr/abs-1301-3781, author = {Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean}, title = {Efficient Estimation of Word Representations in Vector Space}, journal = {CoRR}, volume = {abs/1301.3781}, year = {2013}, url = {http://arxiv.org/abs/1301.3781}, timestamp = {Thu, 07 May 2015 20:02:01 +0200}, biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/abs-1301-3781}, bibsource = {dblp computer science bibliography, http://dblp.org} }
@incollection{NIPS2013_5021, title = {Distributed Representations of Words and Phrases and their Compositionality}, author = {Mikolov, Tomas and Sutskever, Ilya and Chen, Kai and Corrado, Greg S and Dean, Jeff}, booktitle = {Advances in Neural Information Processing Systems 26}, editor = {C.J.C. Burges and L. Bottou and M. Welling and Z. Ghahramani and K.Q. Weinberger}, pages = {3111--3119}, year = {2013}, publisher = {Curran Associates, Inc.}, url = {http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf} }