【Information Extraction Tool】 Reverb動きました
昨日に引き続きベースラインシステムの実装中。
で、必要なツールとしてあるのがこれ。
Reverb。
英語の文書を入力として3つ組形式で出力してくれるという優れもの。
知識の一般化、信頼度などもあり非常に使えそうなツール。
上のサイトで色々やっていたのですが、どうやら単に抽出するだけなら
(中身のプログラムをいじくらないなら)
Quick Startだけ動かせれば大丈夫そう。
とりあえず20Newsgroup全てに対してRevebを用いて3つ組を抽出中。
出力例
I am looking for source code 0 1 1 4 4 6 0.14030103414407558 I am looking for source code that can reads the ascii file or bitmap file and produced the thinned image . PRP VBP VBG IN NN NN WDT MD VBZ DT NN NN CC NN NN CC VBD DT JJ NN . B-NP B-VP I-VP B-PP B-NP I-NP B-NP B-VP I-VP B-NP I-NP I-NP I-NP I-NP I-NP O B-VP B-NP I-NP I-NP O i look for source code
あとは、SVMとLDAを動かしたい。
ベースラインシステムの実装
博士課程としての研究をスタート。
今一番興味があるのはこの論文。
http://www.aclweb.org/anthology/P15-1051
ざっくり説明すると、文書が与えられたときに
その文書を読む際に必要な背景知識を抽出するという論文。
やはり、人間の常識的なところをうまく利用して
既存タスクの精度を上げていくという方向性でいきたいので、
この論文はうってつけだと思っている。
まずは、上論文を実装してその改良で
1つ研究をまとめられればと思っている。
上の論文は評価実験で文書分類をしているということで、
そのデータセットを収集中。
ざっと調べたところ、以下の2つのデータセットがあるとのこと。
・Reuters-21578
・20Newsgroups
20Newsgroupsについては以下のサイトでナイーブベイズの実装が公開されていたので、まずはその実装から始めようと思う。
2週間後のミーティングまでに
既存手法の実装+エラー分析+改良法の提案
までいきたい。
chainerやってます
cuda入れました。
YANS(自然言語処理若手の会)参加報告
9/3-9/5でYANSに参加してきましたので、参加報告を書きます。
今回は、参加して思ったことをだらだらと書いていきます。
●研究者として必要な能力
色々な方に学生のうちにやったほうが良いことを聞きました。
大抵の人に共通していたのは、英語、数学、プログラミングは学生のうちにやったほうが良いとのこと。
●研究室として取り入れたいこと
数学の勉強の一貫として。
数学力は何の分野をやるにしても汎用的に必要。
・トピックモデル勉強会
後輩の要望。
個人的にも興味があるし、数学力要請にも繋がるので、ぜひやりたい。
・言語処理100本ノック
プログラミングの勉強として。
後輩が是非やりたいとのこと。
・トップカンファレンス読み会
この前NAACL読み会をしたので、次はACL読み会に挑戦予定。
●個人的にやっていきたいこと
・色々とプログラミング&サイクルをあげる
プログラミングを上げるために。
自分で組んで挙動を見ることで理解も深まるので。
いかにたくさんサイクルを回せるかが大切。
・英語の勉強
外人の方と語り合いたい。
TOEIC900目指します。
・ブログ開始
ちゃんと開始しました。更新がんばります。
・名刺を作成
名刺を渡されたときに返せなくて申し訳なかった。
作ります。
100ノックとトピックモデル勉強会は後輩に企画お願いしようかな。