Learning Semantic Word Embeddings based on Ordinal Knowledge Constraints

Learning Semantic Word Embeddings based on Ordinal Knowledge Constraints
Quan Liu, Hui Jiang, Si Wei, Zhen-Hua Ling, Yu Hu., 2015, ACL
project

類似度の順序関係知識を用いたWord Embeddingの学習。
word2vecと外部知識での合わせ技でEmbeddingを作る類の話。とても明瞭なストーリーで実験結果も上々なので、個人的にはこの類（あくまで類似度ベースの指標として外部知識を取り入れる）のアイデアの1つのチェックポイントとして腰を落ち着けた感がある。

ある3単語(a, b, c)を想定したとき、(a,b)と(a,c)とで類似度に差があると直観的に分かる場合がある。例えば、「aとその類義語b」と「aとその反義語c」であれば前者のほうが類似度が高くなるべきで、同様に「aとその類義語(Synset)」と「aとその上位語」であればこちらも一般には前者のほうが類似度が高いといえそうだ。このようなパターンをWordNetと英単語辞書（Fernald, 1896）から抽出して、それらのコサイン類似度が先の直感的な制約を満たすように学習する。厳密には制約ではなくヒンジロスを計算して、それとword2vecの方の目的関数とでバランスよくJointに学習を進めていく。

性能評価は、単語類似度、文内の単語穴埋め、固有表現抽出、TOEFLの類義語選択の4つ。どのタスクでもしっかりと性能が向上した。ただし、固有表現抽出では精度向上がいまいち。単語類似度タスクとTOEFLの問題については直接外部知識が生きるところなので（単語類似度の方は外部知識そのままではrankingが難しいとはいえ）、個人的にはここが精度向上するだけだと「そりゃ反義語を少し修正すれば上がるのは当然では？」という少しもやっとする気持ちが残る。実際に、単語類似度タスクでは「類義-上位」無しで「類義-反義」のパターンのみ使った時のほうが性能が上がっていたので、やはりその気持ちは正しいように思える。
しかし、単語穴埋めもちゃんと精度向上しているので、広い意味でqualityが上がったという納得感がある。少々執拗なツッコミかもしれないが、単語類似度タスクやTOEFLタスクにおいて行った単語比較のうちで、どれほどがWordNet等で直接学習可能だったペアなのかも少し知りたいところだった。
固有表現抽出の精度向上しない理由が気になる。どんな分類器を使ったとかは本論文には書いていなかったので（cite先の論文には書いてあるだろうが）わからないが、元々評価として不適なものなのかもしれない。

Future workとして他のNLPタスクでも評価してみたいというようなことが述べられているが、あまりそっち方向追っても仕方がない印象（性能向上の理由に深く踏み込むコメントはあまりされていないし）。個人的には定性的な分析をもう少し見てみたい。「学習後の単語ベクトルの (ベクトル空間内での) 配置をt-SNEとかで見るとWordNetの木構造を高次元に写し取った形になっていました」とか「上位下位自体の制約等は加えずとも、類似度（距離）制約を満たすように学習すると自然と元の木構造が実現される」みたいなすごい報告を期待してしまう。そこまでいかずとも、数あるNLPタスクの中であれば、よくあるEmbeddingでの上位下位関係判定の結果とか見てみたい。

こんな夢を見た

修士学生による自然言語処理研究の記録。主にDeep LearningやEmbedding関連論文の軽い自分用まとめとして。内容に誤りが含まれている場合があります。お気軽にご指摘ください。

Learning Semantic Word Embeddings based on Ordinal Knowledge Constraints