Learning Word Representations with Hierarchical Sparse Coding
Dani Yogatama, Manaal Faruqui, Chris Dyer, Noah A. Smith, 2015, ACL (NIPS WS, 2014)
階層的な次元構造を持った単語ベクトル学習。
各次元ごとに異なったL2正則化項(上手いこと設計したgroup lasso)を持たせて学習することで「まずはこの次元で表現しようとして、もし難しければ無理してでも新たに別の次元を使って表現していく」というようなスタイルでベクトル学習が行える。なるほどと思える目的関数。
そして、驚いたのがその性能のよさ。word2vecやGloVeを筆頭に代表的な単語ベクトルと、類似度タスク、アナロジータスク、単語補完、極性分類で比較している。Semantic analogyが少々苦手なようだが、基本的にはかなり匹敵したり類似度タスクや極性分類では勝ったりしている(対抗馬のベクトルはデフォルトのハイパーパラメータを使って学習しているのでその辺のご愛嬌はあるとはいえ)。ユニークな学習方法として袂を分かちた手法として立派な結果だ。
ただ、specificな文脈を表現するためにはより多くの次元を使うというようなコンセプトを述べていたけど、図3でanimalとhorseとelephatを比較しているときにはどうにもanimalが各次元に渡って大きい絶対値を持っているように見える。要は、性能がよくなったのは良いのだけど、元のコンセプトを支持するような結果がどうにも薄いように感じた。
論文で性能評価に使われているベクトルはスパース性もかなり低いので、そのせいで良いストーリーになっていないのかもしれない。スパース性を高めて解釈を容易にすることもできたが、おそらくは類似度タスクやアナロジータスクの性能が下がるのでそっちは犠牲にした、というような形だろうか。
group lassoについての参考: PFI海野さん