【Information Extraction Tool】 Reverb動きました
昨日に引き続きベースラインシステムの実装中。
で、必要なツールとしてあるのがこれ。
Reverb。
英語の文書を入力として3つ組形式で出力してくれるという優れもの。
知識の一般化、信頼度などもあり非常に使えそうなツール。
上のサイトで色々やっていたのですが、どうやら単に抽出するだけなら
(中身のプログラムをいじくらないなら)
Quick Startだけ動かせれば大丈夫そう。
とりあえず20Newsgroup全てに対してRevebを用いて3つ組を抽出中。
出力例
I am looking for source code 0 1 1 4 4 6 0.14030103414407558 I am looking for source code that can reads the ascii file or bitmap file and produced the thinned image . PRP VBP VBG IN NN NN WDT MD VBZ DT NN NN CC NN NN CC VBD DT JJ NN . B-NP B-VP I-VP B-PP B-NP I-NP B-NP B-VP I-VP B-NP I-NP I-NP I-NP I-NP I-NP O B-VP B-NP I-NP I-NP O i look for source code
あとは、SVMとLDAを動かしたい。