【論文紹介】 Identifying Relations for Open Information Extraction (Open IEツール Reverbの原著論文)
Reverbの原著論文を読んだので軽くまとめます。
こちらから読めます。
https://homes.cs.washington.edu/~soderlan/Fader-emnlp11.pdf
●入出力
文書を入力として、関係インスタンスと関係パタンの3つ組で出力。なおその3つ組の信頼度も同時に出力する。
例) I eat an apple. → (I, eat, an apple), 信頼度
関係インスタンスっていうのは、意味的関係のある名詞対のことで、上の例だと、Iとan apple.
関係パタンっていうのは、関係インスタンスがどのような関係なのかを表す動詞もしくは動詞句のこと。上の例だと、eatが該当する。
●既存研究の問題点
上述したトリプルで抽出するツールとして、TEXTRUNNERやWOEが有名。
しかしながら、これらのシステムには2つのエラーが頻出する。
・頻出エラー1:意味不明な関係パタンの抽出
例) The guide contains dead links and omits sites.
→関係パタン:contains omits
・頻出エラー2:重要な情報を省いた抽出
例) Faust made a deal with the devil.
→(Faust, made, a deal)
●提案アプローチ(上述した問題点への改善策)
・改善策1:構文的制約の導入
→抽出する関係パタンに構文的な制約をかける。
例)動詞で始まり、前置詞で終わる...とか
しかしながら改善策1では、あまりに特徴的な関係パタンを抽出してしまう。
(関係パタンとしては長すぎて使い物にならない)
そこで、抽出する関係パタンについて辞書を作成する。(改善策2)
・改善策2:語彙的制約の導入
→抽出する関係パタンについての辞書を作成。
500millionの文について、20回以上関係パタンとして出現しているものを辞書に加える処置を施す。
●信頼度計算
ラベル付き1,000文についてロジスティック回帰を学習。
各特徴量に重み付けをして信頼度を計算する。
●感想
情報抽出分野について詳しくなかったから最初読んだ時は意味がわからなかったけれど、理解してみれば簡単。
エラー分析をして頻出エラーへの対策をしたという研究で、流れがとても参考になる。
実際に使ってみたところ、中々よさ気な抽出ができている。
日本語ではこのような抽出ツールが存在しないので、誰か作ってくれないかな。