【Information Extraction Tool】 Reverb動きました

昨日に引き続きベースラインシステムの実装中。

 

で、必要なツールとしてあるのがこれ。

Reverb。

 

github.com

 

英語の文書を入力として3つ組形式で出力してくれるという優れもの。

知識の一般化、信頼度などもあり非常に使えそうなツール

 

 

上のサイトで色々やっていたのですが、どうやら単に抽出するだけなら

(中身のプログラムをいじくらないなら)

Quick Startだけ動かせれば大丈夫そう。

 

とりあえず20Newsgroup全てに対してRevebを用いて3つ組を抽出中。

 

出力例

I am looking for source code 0 1 1 4 4 6 0.14030103414407558 I am looking for source code that can reads the ascii file or bitmap file and produced the thinned image . PRP VBP VBG IN NN NN WDT MD VBZ DT NN NN CC NN NN CC VBD DT JJ NN . B-NP B-VP I-VP B-PP B-NP I-NP B-NP B-VP I-VP B-NP I-NP I-NP I-NP I-NP I-NP O B-VP B-NP I-NP I-NP O i look for source code

 

 

あとは、SVMとLDAを動かしたい。

 

SVMlibSVMで、LDAはgensimがよさ気なのだろうか。