idfデータ

集計条件

  • 品詞は細分類を無視
  • 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2

定義式

IDF\left(W_{n}\right) = log_{10}\left(\frac{D\left(*\right)+1}{D\left(W_{n}\right)\right)

  • IDF\left(W_{n}\right) : 単語W_nのIDF値
  • D\left(*\right) : 総文書数
  • D\left(W_{n}\right) : 単語W_nが出現する文書の総数

文書数、異なり単語数

総ドキュメント数 123,7429
単語異なり数 216,9308

データ形式と例

タブ区切り

データ例

形態素 品詞 idf値
あいぞう 名詞 6.09252
あいぞめ 名詞 5.01334
あいた 感動詞 4.58737
あいたい 名詞 4.46927
あいだ 名詞 2.82231

*1:WP2TXTの変換によって本文がなくなる場合がある

*2:めんどくさかったので・・・