【Information Extraction Tool】 Reverb動きました

昨日に引き続きベースラインシステムの実装中。

 

で、必要なツールとしてあるのがこれ。

Reverb。

 

github.com

 

英語の文書を入力として3つ組形式で出力してくれるという優れもの。

知識の一般化、信頼度などもあり非常に使えそうなツール

 

 

上のサイトで色々やっていたのですが、どうやら単に抽出するだけなら

(中身のプログラムをいじくらないなら)

Quick Startだけ動かせれば大丈夫そう。

 

とりあえず20Newsgroup全てに対してRevebを用いて3つ組を抽出中。

 

出力例

I am looking for source code 0 1 1 4 4 6 0.14030103414407558 I am looking for source code that can reads the ascii file or bitmap file and produced the thinned image . PRP VBP VBG IN NN NN WDT MD VBZ DT NN NN CC NN NN CC VBD DT JJ NN . B-NP B-VP I-VP B-PP B-NP I-NP B-NP B-VP I-VP B-NP I-NP I-NP I-NP I-NP I-NP O B-VP B-NP I-NP I-NP O i look for source code

 

 

あとは、SVMとLDAを動かしたい。

 

SVMlibSVMで、LDAはgensimがよさ気なのだろうか。

ベースラインシステムの実装

博士課程としての研究をスタート。

 

今一番興味があるのはこの論文。

http://www.aclweb.org/anthology/P15-1051

 

ざっくり説明すると、文書が与えられたときに

その文書を読む際に必要な背景知識を抽出するという論文。

 

 

やはり、人間の常識的なところをうまく利用して

既存タスクの精度を上げていくという方向性でいきたいので、

この論文はうってつけだと思っている。

 

まずは、上論文を実装してその改良で

1つ研究をまとめられればと思っている。

 

 

上の論文は評価実験で文書分類をしているということで、

そのデータセットを収集中。

 

ざっと調べたところ、以下の2つのデータセットがあるとのこと。

・Reuters-21578

・20Newsgroups

 

20Newsgroupsについては以下のサイトでナイーブベイズの実装が公開されていたので、まずはその実装から始めようと思う。

 

aidiary.hatenablog.com

 

 

2週間後のミーティングまでに

 

既存手法の実装+エラー分析+改良法の提案

 

までいきたい。

 

chainerやってます

chainerにcudaを入れることに成功。

以下のサイトを参考にLSTM言語モデルのサンプルを動かす。

 

d.hatena.ne.jp

 

そしたら、早い。

CPUのとき6iter/secだったのが、gpuで120iter/secに。

20倍の速度。

 

しかし、コードがまったく読めない。

後輩に聞いたら、単純パーセプトロンから勉強するといいとのこと。

以下のサイトを参考に進めていきます。

 

hi-king.hatenablog.com

cuda入れました。

ubuntuにcudaを入れました。

参考にしたのは以下のサイト。

 

mikemoke.hatenablog.com

 

d.hatena.ne.jp

 

しかし、chainerのサンプルプログラムを動かそうとするとエラーが。。。

 

>>no cuda capable device is detected ubuntu

 

頑張って動かしたいです。

YANS(自然言語処理若手の会)参加報告

9/3-9/5でYANSに参加してきましたので、参加報告を書きます。

 

今回は、参加して思ったことをだらだらと書いていきます。

 

●研究者として必要な能力

色々な方に学生のうちにやったほうが良いことを聞きました。

大抵の人に共通していたのは、英語、数学、プログラミングは学生のうちにやったほうが良いとのこと。

 

 

●研究室として取り入れたいこと

機械学習入門勉強会、PRML勉強会

数学の勉強の一貫として。

数学力は何の分野をやるにしても汎用的に必要。

 

 

・トピックモデル勉強会

後輩の要望。

個人的にも興味があるし、数学力要請にも繋がるので、ぜひやりたい。

 

 

・言語処理100本ノック

プログラミングの勉強として。

後輩が是非やりたいとのこと。

 

 

・トップカンファレンス読み会

この前NAACL読み会をしたので、次はACL読み会に挑戦予定。

 

 

●個人的にやっていきたいこと

・色々とプログラミング&サイクルをあげる

プログラミングを上げるために。

自分で組んで挙動を見ることで理解も深まるので。

いかにたくさんサイクルを回せるかが大切。

 

 

・英語の勉強

外人の方と語り合いたい。

TOEIC900目指します。

 

 

・ブログ開始

ちゃんと開始しました。更新がんばります。

 

 

・名刺を作成

名刺を渡されたときに返せなくて申し訳なかった。

作ります。

 

 

機械学習勉強会とACL読み会は自分で企画して、

100ノックとトピックモデル勉強会は後輩に企画お願いしようかな。