2010-01-01から1年間の記事一覧

追記

SocialIMEで有名な id:nokuno さんからTrackBackを頂きました。ありがとうございます。 まさかかぶるとは・・・

wikipediaダンプからNgramとIDFデータを作りました

まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を少しでも節約出来れば良いな、という目的で以下のデータ作りました。 1-5形態素のNgram頻度データ 単語のIDFリスト 文字化けとか割と気にせず進めてしまったのであまりクォリティ…

参考ページ

Google Japan Blog: 大規模日本語 n-gram データの公開 http://mecab.sourceforge.net/ http://www-lab25.kuee.kyoto-u.ac.jp/NLP_Portal/jeita_corpus/index.html

その他

このデータを使ってなんか、自然言語処理の入門(の入門)的記事でも書いていきたいですね。

各種条件

使用ツール ツール名 バージョン WP2TXT(http://wp2txt.rubyforge.org/) 0.1.0 mecab(http://mecab.sourceforge.net/) mecab-0.98 辞書(http://mecab.sourceforge.net/) mecab-ipa-dic-2.7.0-20070801 対象データ ウィキメディア財団が配布する「ウィキペデ…

Ngramデータ

データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http://dl.dropbox.com/u/2996612/2gram.bz2 3-gram http://dl.dropbox.com/u/2996612/3gram.bz2 4-gram http://dl.dropbox.com/u/2996612/4gram.bz2 5-gram http://dl.dropbox.com/u/29966…

idfデータ

データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメン…

#sobe2でLTをしました

sobe2の詳細:http://tsuyabu.in/2010/04/sobe2/自分は「初めての「私の志集」」と題して、「私の志集」に関する発表を行いました。 「「私の志集」って何?」と思う方がこの資料を見てもほとんど分からないと思います(喋りメインのため)ので、知りたい方…

社会人1年目が終わりました

気づけば早いもので、サラリーマン生活も2年目に突入しました。4/1には優秀そうな人達がたくさん新卒入社しまして、不安と焦りを、入社当時とはまた違った感触で感じています。 時期が時期なので、この1年間のことを振り返りながら、だらだらと書いてみます…