2010-05-22 Ngramデータ データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http://dl.dropbox.com/u/2996612/2gram.bz2 3-gram http://dl.dropbox.com/u/2996612/3gram.bz2 4-gram http://dl.dropbox.com/u/2996612/4gram.bz2 5-gram http://dl.dropbox.com/u/2996612/5gram.bz2 集計条件 文字コードはUTF-8 文頭、文末には特殊記号として「<S>」「</S>」を付与 文末は「。」「!」「?」の3種の記号があった箇所、及び改行箇所にて判定 頻度10未満を削除 異なり数 1-gram 255860 2-gram 2108310 3-gram 3635959 4-gram 2854212 5-gram 1839806 データ形式と例 形態素は半角スペース区切り 形態素列と頻度はタブ区切り 3-gramの場合のデータ例 形態素列 出現頻度 あきらめ た 。 56 あきらめ た と 10 あきらめ て 、 14 あきらめ て い 47 あきらめ て いる 13 あきらめ て しまう 14