toilet_lunchの日記

idfデータ

データ

http://dl.dropbox.com/u/2996612/idf.txt.bz2

集計条件

品詞は細分類を無視
文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2

定義式

$IDF\left(W_{n}\right) = log_{10}\left(\frac{D\left(*\right)+1}{D\left(W_{n}\right)\right)$

$IDF\left(W_{n}\right)$ 　：　単語 $W_n$ のIDF値
$D\left(*\right)$ 　：　総文書数
$D\left(W_{n}\right)$ 　：　単語 $W_n$ が出現する文書の総数

文書数、異なり単語数

総ドキュメント数	123,7429
単語異なり数	216,9308

データ形式と例

タブ区切り

データ例

形態素	品詞	idf値
あいぞう	名詞	6.09252
あいぞめ	名詞	5.01334
あいた	感動詞	4.58737
あいたい	名詞	4.46927
あいだ	名詞	2.82231

*1:WP2TXTの変換によって本文がなくなる場合がある

*2:めんどくさかったので・・・

Ngramデータ

データ

1-gram	http://dl.dropbox.com/u/2996612/1gram.bz2
2-gram	http://dl.dropbox.com/u/2996612/2gram.bz2
3-gram	http://dl.dropbox.com/u/2996612/3gram.bz2
4-gram	http://dl.dropbox.com/u/2996612/4gram.bz2
5-gram	http://dl.dropbox.com/u/2996612/5gram.bz2

集計条件

文字コードはUTF-8
文頭、文末には特殊記号として「<S>」「</S>」を付与
文末は「。」「!」「?」の3種の記号があった箇所、及び改行箇所にて判定
頻度10未満を削除

異なり数

1-gram	255860
2-gram	2108310
3-gram	3635959
4-gram	2854212
5-gram	1839806

データ形式と例

形態素は半角スペース区切り
形態素列と頻度はタブ区切り

3-gramの場合のデータ例

形態素列	出現頻度
あきらめた。	56
あきらめたと	10
あきらめて、	14
あきらめてい	47
あきらめている	13
あきらめてしまう	14

各種条件

使用ツール

ツール名	バージョン
WP2TXT(http://wp2txt.rubyforge.org/)	0.1.0
mecab(http://mecab.sourceforge.net/)	mecab-0.98
辞書(http://mecab.sourceforge.net/)	mecab-ipa-dic-2.7.0-20070801

対象データ

ウィキメディア財団が配布する「ウィキペディア日本語版」のdumpデータ、
2010年2月26日版の "pages-articles.xml.bz2" を基に作成しました。*1

ライセンス

Wikipediaのライセンスに従い、GFDL1.2とします。

データ前処理

WP2TXTを使用してwikipediaをxml形式から通常のテキストデータに変換
mecabにて本文を形態素解析（タイトル除く）
Unicode NFKC に従って文字列を正規化
mecabの品詞の自動推定は行わずに「未知語」として判定

*1:諸事情によりちょっと日付が古いですが、ご勘弁を

その他

このデータを使ってなんか、自然言語処理の入門（の入門）的記事でも書いていきたいですね。

参考ページ

wikipediaダンプからNgramとIDFデータを作りました

まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を
少しでも節約出来れば良いな、という目的で以下のデータ作りました。

1-5形態素のNgram頻度データ
単語のIDFリスト

文字化けとか割と気にせず進めてしまったのであまりクォリティは高くないと思いますが、
「Google N-gramでかすぎて持て余す！」という人なんかが適当に使う分には
適度な量なのではないでしょうか。

追記

SocialIMEで有名な id:nokuno さんからTrackBackを頂きました。ありがとうございます。
まさかかぶるとは・・・