A Compositional and Interpretable Semantic Space

A Compositional and Interpretable Semantic Space
Alona Fyshe, Leila Wehbe, Partha Talukdar, Brian Murphy, Tom Mitchell, 2015, NAACL site

Non-Negative Sparse Embedding (Murphy, 2012) を改良。形容詞と名詞の重み付き和で作ったベクトルが、対応する2語フレーズに近くなるような制約を新たに加えて学習。

その制約の発想自体は自然なのだけどこれで上手くいっているのか、と少し驚いた。
学習時に実際のフレーズベクトルを学習しておかねばならないのだからスケール的に厳しいのではと思っていた。フレーズの数が少ないなら少ないで、その少ないパターンでの制約で全体にその性質が実ってくれるのかという不安がある。
しかし何はともあれ形容詞+名詞のフレーズでは上手くいっているようだ。

ベクトルの性質（非負でスパース）がコンセプト（解釈容易性）に結びついていることを、しっかりと実験によって実証していてよい。実験自体が実際のベクトルの解釈法のチュートリアル的にもなっていてうまい。

解釈の容易さにも重点がおかれていて、そこでもなかなか上手な評価を行っている。ある次元で成分が強い単語5個と、他の次元で成分が強い単語1個を混ぜたようなリストを作って、そこでの仲間はずれを人にあてさせたときの正解率で評価（メカニカルタークで5人の回答者）。正解率が高ければ高いほど次元ごとに自明にグループ分けがなされているという結論を確かに導けそう。正解率の他に回答者間のagreementでも評価。
結果はSVDに比べるとNNSEとCNNSEがどちらでも圧勝（正解率86.2, 88.9% & agreement 94, 90%）。
本題とはずれるけど、SVDが正解率17.6%(つまりほぼランダム)だったのにagreementは76%だったのが少し面白い。実質適当に選ばれたような単語リストからでも、人はある類似性をそこそこ共通に見つけるものなんだなあ。

他の実験として、フレーズ作って、かつ各次元ごとに高成分単語のリスト作って、そのフレーズの最高成分次元のリストを人が選べるかというのも行っている。interpretablityとcompositionabilityが両立しているのかを評価。かなりいい結果（CNNSE:54.5%, NNSE:29.5%）だったのだけど、幾つの(次元)リストから選ばせたのか分からなかった。全次元だったら1000個から選ばせたことになるので多分違うのだけど……。（次元数がそもそも本当に1000なのかという疑念もある）

最後の方で多義性のせいで類似度計算がうまくいかない件について触れているが、そこで（将来的な）解決策として「次元をある程度意味的に近いグループに分けておいて、類似度計算時には類似度最大となるグループ(だけ)で計算するようにする」というようなことを言っている。そういうものだろうか？　ちょっとしっくりこない。

半分余談。
the majority と a majority で「多数(派)」と「過半数」を書き分けるような用法はあるのだろうか。先の評価指標の説明は、それぞれ

Intruders detected: % of questions for which the majority response was the intruder. Mturk agreement: % of questions for which a majority of users chose the same response.

と書かれていた(bold強調は原文になし)。
agreementの方は「過半数が一致回答した率」だとは思う（"多数派"が一致回答なのは必然なので）が、正解率の方は「過半数が正解できた率」なのか「多数派が正解できた率」なのか解釈に迷うところ。interpretablity……。
なお、面白いことに類似度計算が多義性とかのせいで難しくなっている事例を考察している章(3.3.1)で取り上げられている単語もmajorityだった。

こんな夢を見た

修士学生による自然言語処理研究の記録。主にDeep LearningやEmbedding関連論文の軽い自分用まとめとして。内容に誤りが含まれている場合があります。お気軽にご指摘ください。

A Compositional and Interpretable Semantic Space