idfデータ

集計条件

  • 品詞は細分類を無視
  • 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2

定義式

IDF\left(W_{n}\right) = log_{10}\left(\frac{D\left(*\right)+1}{D\left(W_{n}\right)\right)

  • IDF\left(W_{n}\right) : 単語W_nのIDF値
  • D\left(*\right) : 総文書数
  • D\left(W_{n}\right) : 単語W_nが出現する文書の総数

文書数、異なり単語数

総ドキュメント数 123,7429
単語異なり数 216,9308

データ形式と例

タブ区切り

データ例

形態素 品詞 idf値
あいぞう 名詞 6.09252
あいぞめ 名詞 5.01334
あいた 感動詞 4.58737
あいたい 名詞 4.46927
あいだ 名詞 2.82231

*1:WP2TXTの変換によって本文がなくなる場合がある

*2:めんどくさかったので・・・

Ngramデータ

集計条件

  • 文字コードUTF-8
  • 文頭、文末には特殊記号として「<S>」「</S>」を付与
  • 文末は「。」「!」「?」の3種の記号があった箇所、及び改行箇所にて判定
  • 頻度10未満を削除

異なり数

1-gram 255860
2-gram 2108310
3-gram 3635959
4-gram 2854212
5-gram 1839806

データ形式と例

3-gramの場合のデータ例

形態素 出現頻度
あきらめ た 。 56
あきらめ た と 10
あきらめ て 、 14
あきらめ て い 47
あきらめ て いる 13
あきらめ て しまう 14

各種条件

使用ツール

ツール名 バージョン
WP2TXT(http://wp2txt.rubyforge.org/) 0.1.0
mecab(http://mecab.sourceforge.net/) mecab-0.98
辞書(http://mecab.sourceforge.net/) mecab-ipa-dic-2.7.0-20070801

対象データ

ウィキメディア財団が配布する「ウィキペディア日本語版」のdumpデータ、
2010年2月26日版の "pages-articles.xml.bz2" を基に作成しました。*1

ライセンス

Wikipediaのライセンスに従い、GFDL1.2とします。

データ前処理

  • WP2TXTを使用してwikipediaxml形式から通常のテキストデータに変換
  • mecabにて本文を形態素解析(タイトル除く)
  • Unicode NFKC に従って文字列を正規化
  • mecabの品詞の自動推定は行わずに「未知語」として判定

*1:諸事情によりちょっと日付が古いですが、ご勘弁を

wikipediaダンプからNgramとIDFデータを作りました

まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を
少しでも節約出来れば良いな、という目的で以下のデータ作りました。

  1. 1-5形態素のNgram頻度データ
  2. 単語のIDFリスト

文字化けとか割と気にせず進めてしまったのであまりクォリティは高くないと思いますが、
Google N-gramでかすぎて持て余す!」という人なんかが適当に使う分には
適度な量なのではないでしょうか。