2010-05-01から1ヶ月間の記事一覧

追記

SocialIMEで有名な id:nokuno さんからTrackBackを頂きました。ありがとうございます。 まさかかぶるとは・・・

wikipediaダンプからNgramとIDFデータを作りました

まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を少しでも節約出来れば良いな、という目的で以下のデータ作りました。 1-5形態素のNgram頻度データ 単語のIDFリスト 文字化けとか割と気にせず進めてしまったのであまりクォリティ…

参考ページ

Google Japan Blog: 大規模日本語 n-gram データの公開 http://mecab.sourceforge.net/ http://www-lab25.kuee.kyoto-u.ac.jp/NLP_Portal/jeita_corpus/index.html

その他

このデータを使ってなんか、自然言語処理の入門(の入門)的記事でも書いていきたいですね。

各種条件

使用ツール ツール名 バージョン WP2TXT(http://wp2txt.rubyforge.org/) 0.1.0 mecab(http://mecab.sourceforge.net/) mecab-0.98 辞書(http://mecab.sourceforge.net/) mecab-ipa-dic-2.7.0-20070801 対象データ ウィキメディア財団が配布する「ウィキペデ…

Ngramデータ

データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http://dl.dropbox.com/u/2996612/2gram.bz2 3-gram http://dl.dropbox.com/u/2996612/3gram.bz2 4-gram http://dl.dropbox.com/u/2996612/4gram.bz2 5-gram http://dl.dropbox.com/u/29966…

idfデータ

データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメン…