自然言語処理に関する断層録

【Information Extraction Tool】 Reverb動きました

昨日に引き続きベースラインシステムの実装中。

で、必要なツールとしてあるのがこれ。

Reverb。

英語の文書を入力として3つ組形式で出力してくれるという優れもの。

知識の一般化、信頼度などもあり非常に使えそうなツール。

上のサイトで色々やっていたのですが、どうやら単に抽出するだけなら

（中身のプログラムをいじくらないなら）

Quick Startだけ動かせれば大丈夫そう。

とりあえず20Newsgroup全てに対してRevebを用いて3つ組を抽出中。

出力例

I am looking for source code 0 1 1 4 4 6 0.14030103414407558 I am looking for source code that can reads the ascii file or bitmap file and produced the thinned image . PRP VBP VBG IN NN NN WDT MD VBZ DT NN NN CC NN NN CC VBD DT JJ NN . B-NP B-VP I-VP B-PP B-NP I-NP B-NP B-VP I-VP B-NP I-NP I-NP I-NP I-NP I-NP O B-VP B-NP I-NP I-NP O i look for source code

あとは、SVMとLDAを動かしたい。

SVMはlibSVMで、LDAはgensimがよさ気なのだろうか。

ベースラインシステムの実装

博士課程としての研究をスタート。

今一番興味があるのはこの論文。

http://www.aclweb.org/anthology/P15-1051

ざっくり説明すると、文書が与えられたときに

その文書を読む際に必要な背景知識を抽出するという論文。

やはり、人間の常識的なところをうまく利用して

既存タスクの精度を上げていくという方向性でいきたいので、

この論文はうってつけだと思っている。

まずは、上論文を実装してその改良で

１つ研究をまとめられればと思っている。

上の論文は評価実験で文書分類をしているということで、

そのデータセットを収集中。

ざっと調べたところ、以下の2つのデータセットがあるとのこと。

・Reuters-21578

・20Newsgroups

20Newsgroupsについては以下のサイトでナイーブベイズの実装が公開されていたので、まずはその実装から始めようと思う。

aidiary.hatenablog.com

2週間後のミーティングまでに

既存手法の実装＋エラー分析＋改良法の提案

までいきたい。

chainerやってます

chainerにcudaを入れることに成功。

以下のサイトを参考にLSTM言語モデルのサンプルを動かす。

そしたら、早い。

CPUのとき6iter/secだったのが、gpuで120iter/secに。

２０倍の速度。

しかし、コードがまったく読めない。

後輩に聞いたら、単純パーセプトロンから勉強するといいとのこと。

以下のサイトを参考に進めていきます。

hi-king.hatenablog.com

cuda入れました。

ubuntuにcudaを入れました。

参考にしたのは以下のサイト。

mikemoke.hatenablog.com

しかし、chainerのサンプルプログラムを動かそうとするとエラーが。。。

>>no cuda capable device is detected ubuntu

頑張って動かしたいです。

YANS(自然言語処理若手の会)参加報告

9/3-9/5でYANSに参加してきましたので、参加報告を書きます。

今回は、参加して思ったことをだらだらと書いていきます。

●研究者として必要な能力

色々な方に学生のうちにやったほうが良いことを聞きました。

大抵の人に共通していたのは、英語、数学、プログラミングは学生のうちにやったほうが良いとのこと。

●研究室として取り入れたいこと

・機械学習入門勉強会、PRML勉強会

数学の勉強の一貫として。

数学力は何の分野をやるにしても汎用的に必要。

・トピックモデル勉強会

後輩の要望。

個人的にも興味があるし、数学力要請にも繋がるので、ぜひやりたい。

・言語処理100本ノック

プログラミングの勉強として。

後輩が是非やりたいとのこと。

・トップカンファレンス読み会

この前NAACL読み会をしたので、次はACL読み会に挑戦予定。

●個人的にやっていきたいこと

・色々とプログラミング＆サイクルをあげる

プログラミングを上げるために。

自分で組んで挙動を見ることで理解も深まるので。

いかにたくさんサイクルを回せるかが大切。

・英語の勉強

外人の方と語り合いたい。

TOEIC900目指します。

・ブログ開始

ちゃんと開始しました。更新がんばります。

・名刺を作成

名刺を渡されたときに返せなくて申し訳なかった。

作ります。

機械学習勉強会とACL読み会は自分で企画して、

１００ノックとトピックモデル勉強会は後輩に企画お願いしようかな。

ブログ始めました

テスト投稿です。

ブログを始めました。

自然言語処理の研究をしております。大学院生です。

よろしくお願いします。