Reverbの原著論文を読んだので軽くまとめます。 こちらから読めます。 https://homes.cs.washington.edu/~soderlan/Fader-emnlp11.pdf ●入出力 文書を入力として、関係インスタンスと関係パタンの3つ組で出力。なおその3つ組の信頼度も同時に出力する。 例)…
昨日からSVMをlibSVMを使って動かしている。 で、どうやら重要なのがパラメータ調整。 色々と考える必要があるみたい。 主に以下の3つ。 ●素性のスケーリング 大きい値が支配的にならないように。 値の正規化みたいなもの。 libsvmではコマンド一発でスケー…
PythonでSVMを使ったのでメモ。 ここのサイトが一番参考になった。 gasser.blog114.fc2.com 環境はWindows7。 まずは公式サイトからzipファイルをダウンロード。 www.csie.ntu.edu.tw 解凍して、一番上のサイトにあるサンプルプログラムを動かしたら動いた。…
ここ最近、LDA関連のツールを動かしていたのでメモ。 使ったのはgensimとMALLET。 まずはgensimから。 ストップワードや記号の除去などを全部自分でやらなければならない。 最初は、ストップワード処理をしていなかったため、語彙数が膨大になり、メモリエラ…
MALLETを用いてLDAの結果。 トピック単語行列の取得方法が分からず、断念。 もう一度、gensimのLDAに立ち返る。 チュートリアルを見てみると、Wikipediaコーパス(8GB)で出来るみたいなことが書いてあった。 それなら、20Newsgroupsで出来ないわけがないと思…
前回、gensimでLDAをやろうとしましたが、メモリエラーをはいたので、 MALLETでLDAをやってみました。 備忘録に。 基本的には公式のチュートリアルを読めばできる。 Topic Modeling 今回は、20_Newsgroupsのmisc.forsaleの文章を入力として使用。 以下からダ…
gensimでLDAを実装。 以下のサイトを参考に実装した。 openbook4.me 基本的には上記のサイトのコードを切り貼りしただけ。 これからコードを読む作業。
昨日に引き続きベースラインシステムの実装中。 で、必要なツールとしてあるのがこれ。 Reverb。 github.com 英語の文書を入力として3つ組形式で出力してくれるという優れもの。 知識の一般化、信頼度などもあり非常に使えそうなツール。 上のサイトで色々や…
博士課程としての研究をスタート。 今一番興味があるのはこの論文。 http://www.aclweb.org/anthology/P15-1051 ざっくり説明すると、文書が与えられたときに その文書を読む際に必要な背景知識を抽出するという論文。 やはり、人間の常識的なところをうまく…
chainerにcudaを入れることに成功。 以下のサイトを参考にLSTM言語モデルのサンプルを動かす。 d.hatena.ne.jp そしたら、早い。 CPUのとき6iter/secだったのが、gpuで120iter/secに。 20倍の速度。 しかし、コードがまったく読めない。 後輩に聞いたら、…
ubuntuにcudaを入れました。 参考にしたのは以下のサイト。 mikemoke.hatenablog.com d.hatena.ne.jp しかし、chainerのサンプルプログラムを動かそうとするとエラーが。。。 >>no cuda capable device is detected ubuntu 頑張って動かしたいです。
9/3-9/5でYANSに参加してきましたので、参加報告を書きます。 今回は、参加して思ったことをだらだらと書いていきます。 ●研究者として必要な能力 色々な方に学生のうちにやったほうが良いことを聞きました。 大抵の人に共通していたのは、英語、数学、プロ…
テスト投稿です。 ブログを始めました。 自然言語処理の研究をしております。大学院生です。 よろしくお願いします。