2010-05-22 wikipediaダンプからNgramとIDFデータを作りました まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を少しでも節約出来れば良いな、という目的で以下のデータ作りました。 1-5形態素のNgram頻度データ 単語のIDFリスト 文字化けとか割と気にせず進めてしまったのであまりクォリティは高くないと思いますが、「Google N-gramでかすぎて持て余す!」という人なんかが適当に使う分には適度な量なのではないでしょうか。