Unsupervised POS Induction with Word Embeddings
Unsupervised POS Induction with Word Embeddings
Chu-Cheng Lin, Waleed Ammar, Chris Dyer, Lori Levin, 2015, NAACL
Word Embeddingsを用いた教師なしPOS induction。
POS inductionではタグから単語を出力する際の確率分布を用いて推定を行うモデルがある。その際には多項分布を仮定したモデルがあったが、それをタグからWord Embeddingsを出力するような多変数ガウス分布を仮定した形に変えると精度向上が8つの言語で一貫して見られたという話。
上のようにさらっとまとめたものの、いまいち理解しきれていない……。なかなか他にも使えそうなアイデアな気がするのだけども。
なので論文の目玉への考察はさておき、word embeddingのパラメータ等変化による性能差についてメモしておく。論文では、普通のSkip-gramモデルとStructured skip-gramモデル(Ling et al., 2015, NAACL)を比較している。後者は周辺単語を予測する際に各語の位置を考慮するモデル。それによってSyntacticな性質が深く込められたword embeddingになるらしく、事実本論文の実験でも精度が向上している。また、window sizeは1,2,4,8,16で調べたところ1が最高精度だった。つまりは隣の単語だけを見るのが最もいいということ。品詞推定程度のsyntacticな性質を得たいのならばそれがいいのかもしれない。window sizeを1に固定した上で、ベクトルの次元数について20, 50, 100, 200で性能を比べたところ、とりあえずは20次元が最高精度だった(差は小さく、さらに言えば性能と次元数に単調な相関もない)。これはまあコーパスサイズにもよりそうので、この論文だけで一般化してどうこう言えるものではないだろう。
NAACL2015だけど、出版前のため以下のbibtexはarxiv。
@article{DBLP:journals/corr/LinADL15,
author = {Chu{-}Cheng Lin and
Waleed Ammar and
Chris Dyer and
Lori S. Levin},
title = {Unsupervised {POS} Induction with Word Embeddings},
journal = {CoRR},
volume = {abs/1503.06760},
year = {2015},
url = {http://arxiv.org/abs/1503.06760},
timestamp = {Thu, 09 Apr 2015 11:33:20 +0200},
biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/LinADL15},
bibsource = {dblp computer science bibliography, http://dblp.org}
}