Ngramデータ

集計条件

  • 文字コードUTF-8
  • 文頭、文末には特殊記号として「<S>」「</S>」を付与
  • 文末は「。」「!」「?」の3種の記号があった箇所、及び改行箇所にて判定
  • 頻度10未満を削除

異なり数

1-gram 255860
2-gram 2108310
3-gram 3635959
4-gram 2854212
5-gram 1839806

データ形式と例

3-gramの場合のデータ例

形態素 出現頻度
あきらめ た 。 56
あきらめ た と 10
あきらめ て 、 14
あきらめ て い 47
あきらめ て いる 13
あきらめ て しまう 14