第2回さくさくテキストマイニング勉強会を行いました

恐縮ながら4/16日にテキストマイニング勉強会を開催させていただきました。 余震の続く中で発表をしてくださった皆様と出席してくださった皆様に感謝致します。 とりわけUstのトラブル時に(ただ見に来てくださっただけなのに)配信を助けて下さいました高須…

追記

SocialIMEで有名な id:nokuno さんからTrackBackを頂きました。ありがとうございます。 まさかかぶるとは・・・

wikipediaダンプからNgramとIDFデータを作りました

まあ誰が作っても大差ないですし、僕が作ることでどこかの誰かの大切な時間を少しでも節約出来れば良いな、という目的で以下のデータ作りました。 1-5形態素のNgram頻度データ 単語のIDFリスト 文字化けとか割と気にせず進めてしまったのであまりクォリティ…

参考ページ

Google Japan Blog: 大規模日本語 n-gram データの公開 http://mecab.sourceforge.net/ http://www-lab25.kuee.kyoto-u.ac.jp/NLP_Portal/jeita_corpus/index.html

その他

このデータを使ってなんか、自然言語処理の入門(の入門)的記事でも書いていきたいですね。

各種条件

使用ツール ツール名 バージョン WP2TXT(http://wp2txt.rubyforge.org/) 0.1.0 mecab(http://mecab.sourceforge.net/) mecab-0.98 辞書(http://mecab.sourceforge.net/) mecab-ipa-dic-2.7.0-20070801 対象データ ウィキメディア財団が配布する「ウィキペデ…

Ngramデータ

データ 1-gram http://dl.dropbox.com/u/2996612/1gram.bz2 2-gram http://dl.dropbox.com/u/2996612/2gram.bz2 3-gram http://dl.dropbox.com/u/2996612/3gram.bz2 4-gram http://dl.dropbox.com/u/2996612/4gram.bz2 5-gram http://dl.dropbox.com/u/29966…

idfデータ

データ http://dl.dropbox.com/u/2996612/idf.txt.bz2 集計条件 品詞は細分類を無視 文書数はタイトルの行数とし、空の文書*1でもカウントを行っている*2 定義式 : 単語のIDF値 : 総文書数 : 単語が出現する文書の総数 文書数、異なり単語数 総ドキュメン…

#sobe2でLTをしました

sobe2の詳細:http://tsuyabu.in/2010/04/sobe2/自分は「初めての「私の志集」」と題して、「私の志集」に関する発表を行いました。 「「私の志集」って何?」と思う方がこの資料を見てもほとんど分からないと思います(喋りメインのため)ので、知りたい方…

社会人1年目が終わりました

気づけば早いもので、サラリーマン生活も2年目に突入しました。4/1には優秀そうな人達がたくさん新卒入社しまして、不安と焦りを、入社当時とはまた違った感触で感じています。 時期が時期なので、この1年間のことを振り返りながら、だらだらと書いてみます…

単語クラスタリング 続き

色々考えていて、実につまらないことに悩んでいた、ということが分かりました。 というのも、前に載せた表の単語Wnは、文書Dmから抽出した単語だったんですね。あー、あほや。 クラスタリングの素性である文書とは無関係の単語を持ってこれば、問題ないんで…

単語クラスタリング

単語のクラスタリングをしています。 文書のクラスタリングが単語の出現(tf*idfとか)を素性にして行われているので、それを転置すりゃ単語のクラスタリングもできんじゃね、と思ってやってみましつた。で、結果がまあ出てはきたんですけど、ふと疑問に思い…

高速道路しか走らないわけじゃない

はてブにも書いたけど、一応こっちで補足。 それで、だ。ここからが本題なんだけど、要は高速道路で学んでいい知識と、地道に泥にまみれながら学んでいかなくてはいけない知識ってのがあるんじゃないかってことを最近よく思うんだわ。俺の場合はなんでも地道…

「サマーウォーズ」試写会感想 -行きて帰らない物語-

ネタバレ自粛中

サマーウォーズの試写会に当たった

気まぐれに応募していたら本当にあたってビックリ。 でも平日の19:00なんですよねー。早上がりすればいけるけど、今ちょっと早上がりはできそうにないんだよなあ…どうにかせねば。

マネタイズとWebサービス

例えば、ある日「10年間Webサービスを自由に作ってていいですよ」と言われたとき、 10年間、マネタイズを常に意識したサービスを作り続ける人 10年間、純粋に面白さだけを追求してサービスを開発し続ける人 この両者は10年後にどんなサービスを作れるように…

今日の日はさようなら

今日は会社から帰った後、会社の友人たちとSkypeチャットをしている間に寝落ちしてしまうという、実に平和的な1日でした。 何事もない1日って、すごくいいと思います。

パソコン届いた

パソコン工房で https://www.pc-koubou.jp/contents/custom/ldt_e8400ram2.php を日曜日に注文したらもう届いたよ。すごい時代になったもんだ。 前のパソコンから奪い取ったメモリとグラボと電源を搭載したまあまあのマシンとなりました。 ところで、以前サ…

新宿マクガフィン

新宿の映画館に会社の知人と三人でヱヴァ破を見に行った帰り。 京急線あたりの高架下、占い師が何人もいるところの柱の根に「私の志集 三百円」と書いた板を持った女性が佇んでいた。あたりを歩く若者の雑踏やそこら中で流れている賑やかな音と比べて明らか…

sakuraのレンタルサーバを借りた

http://toilet-lunch.sakura.ne.jp/ さーて何を作ろうかしら

パソコン壊れた

先週くらいからパソコンの電源がつかず、昨日復活したと思ったら電源は入るが画面出力が全くされずBIOSまで行っている気配さえなくなる始末で、もう買い換えようと思う。13万かかったマシンが2年でおしゃかとか死にたいけど、同程度のスペックのマシンはいま…

ゆるゆるがじぇっとNight!で途方に暮れた

恵比寿でやっていた「ゆるゆるがじぇっとNight!」に行ってきましたよ。http://blog.fon.com/jp/archive//aaaaaaaaanight.html 突然ですが、来る6月26日(金) 、 Eye-Fi, Chumby, Twitter, Skype, POKENそしてFONが恵比寿TimeOut Cafe and Dinerになんとなく集…

しソ部に入れたよ!

http://shisobu.g.hatena.ne.jp/わーいわーい

はてなダイアリー始めました

ここは寂しいインターネットですね! http://twitter.com/toilet_lunch