単語クラスタリング 続き

 色々考えていて、実につまらないことに悩んでいた、ということが分かりました。
 というのも、前に載せた表の単語Wnは、文書Dmから抽出した単語だったんですね。あー、あほや。
 クラスタリングの素性である文書とは無関係の単語を持ってこれば、問題ないんですね。あー、アホだった。
 というわけで、クラスタリングする単語を、適当に用意します。とりあえずは、IPADICに入っている名詞全部、とかにしましょう。素性は前回使ったのと同じ文書群、重みも同じくtf*idf。スパースの問題とかは、適当に無視する方向でいきます。