各種条件

使用ツール

ツール名 バージョン
WP2TXT(http://wp2txt.rubyforge.org/) 0.1.0
mecab(http://mecab.sourceforge.net/) mecab-0.98
辞書(http://mecab.sourceforge.net/) mecab-ipa-dic-2.7.0-20070801

対象データ

ウィキメディア財団が配布する「ウィキペディア日本語版」のdumpデータ、
2010年2月26日版の "pages-articles.xml.bz2" を基に作成しました。*1

ライセンス

Wikipediaのライセンスに従い、GFDL1.2とします。

データ前処理

  • WP2TXTを使用してwikipediaxml形式から通常のテキストデータに変換
  • mecabにて本文を形態素解析(タイトル除く)
  • Unicode NFKC に従って文字列を正規化
  • mecabの品詞の自動推定は行わずに「未知語」として判定

*1:諸事情によりちょっと日付が古いですが、ご勘弁を