やりたいことがおすぎる - 自然言語処理に関する断層録

MALLETを用いてLDAの結果。

トピック単語行列の取得方法が分からず、断念。

もう一度、gensimのLDAに立ち返る。

チュートリアルを見てみると、Wikipedia コーパス(8GB)で出来るみたいなことが書いてあった。

それなら、20Newsgroupsで出来ないわけがないと思い、メモリエラーの原因を分析。

結果、語彙数が多すぎるということが判明した。

１回しか出ない単語を削るなどして、実装。

メモリエラーが出ないことを祈る。

そして、やりたいことが多すぎて、何から手をつけたら良いかわからなくなったので、思考の整理を兼ねてここに吐き出します。

●メインの研究

Document Enrichmentに惹かれているので、まずは既存を実装する。

LDA、Reverb、SVMなどなどだんだん使えるようになってきたからもう少しで既存を実装できそう・・・？

●Chainer

ディープ系を組んで動かしてみたい欲求が強いので、やりたい。

中々時間がとれない。

●お勉強

会議論文

英語

とりあえずメインの研究にリソースを割きつつも、時間を見つけてやっていくしかない。

7:2:1くらいでやっていこう。