第2回さくさくテキストマイニング勉強会を行いました

恐縮ながら4/16日にテキストマイニング勉強会を開催させていただきました。
余震の続く中で発表をしてくださった皆様と出席してくださった皆様に感謝致します。
とりわけUstのトラブル時に(ただ見に来てくださっただけなのに)配信を助けて下さいました高須様には重ねて感謝を申し上げます。本当に助かりました、ありがとうございました。
あんちべさんの異常に上手い司会も素晴らしいものでした。僕にはできません。

さて、各種まとめの記事はすでに上がっておりますし、今回の勉強会での反省はあんちべさんが行ってくれましたので、自分は少し次以降の勉強会について考えてみたいと思います。

初心者向けであるということ

この勉強会はテキストマイニングを専門で研究していらっしゃる方や、業務でバリバリ実践的にテキストマイニングをされている方を対象にしたものではありません。むしろ、これから自然言語処理を研究したいと思いっている学生の方、日々の業務でのテキストマイニングの必要性をぼんやりを考えている方など、専門的な知識や経験をお持ちでない方をターゲットとしている「初心者向け」の勉強会です。
しかし、「初歩的」とは、いったい何を指すものなのでしょうか(2回も勉強会を開催しておいて今更ですが…)。自然言語処理のみならずあらゆる数学的、統計的な知識についても前提知識を必要としないように発表すべきなのでしょうか。

意識の違い

今回の勉強会では、おそらく @yokkuns 様が最も「初心者向け」という点を意識した資料を作成してくださったと思います(ありがとうございます!)。その発表資料の中で「(MeCabやCaboChaなどは)初心者には敷居が高い!」という言葉がありました。まったく同感でしで、 「形態素解析」「構文解析(係り受け解析)」「特徴語抽出」といった専門用語は、分野外の方にはまったく意味が分からないのではないでしょうか。
しかし一方で、この分野に触れている方からすれば「これを毎回説明しないといけないの…!?」とウンザリしてしまうのではないかと思います。これも全く同感で、基礎となるような用語をすべての発表者が毎度の勉強会ごとに説明するのはあまりにも非効率です。

チートシートという可能性

ひとつの改善案としては、「基礎だと思われる用語や概念をA41枚にまとめて資料として配布しておく」、チートシート方式があります(id:nokuno 様からアイデアを頂きました)。ただし、チートシートに書かれた内容より高度なものはもちろん伝わりませんので、発表者の方には「チートシートに書かれている内容以上のものを資料に含める場合は詳細に説明する」という義務が発生します。
発表者の方に今以上の負担をかけてしまうのは、主催者としては気が引けるという気持ちがあります。ただいやしくも初心者向けを謳う以上はこの方法のような配慮が必要であることも間違いないかと思っています。

まとめ

「初歩的である」という部分をきちんと見極め、「ギョーカイジン」としての視線ではない資料作りをしていきたいと思います(ギョーカイジンじゃないけど!)