yokkunsの日記

第1回にこにこテキストマイニング勉強会（#nicoTextMining）に参加してきた

第1回にこにこテキストマイニング勉強会に参加してきました。

第1回にこにこテキストマイニング勉強会 : ATND

AntiBayesian : 「テキストマイニングの歩き方」

すみません、遅刻して、入ってすぐ終わってしまいました。

内容としては、前回のTokyo.Rでの発表に近い感じだったのかなと思いました。

toilet_lunch : 「ゆるふわテキストマイニングをしてみよう」

資料 : http://toilet-lunch.sakura.ne.jp/nicoTextMining01.pdf

評判分析のツールを作った
- http://toilet-lunch.shisobu.in/search.cgi
何をしているのか
- 入力されたセイン名でtwitterのログを検索
- 検索された発言から、製品を評価しているらしいものを選択
- 発言にポジティブらしさ、ネガティブらしさの点数をつける
- 表示
評価表現を使う
- 物事に対する評価を表しているようなことば
- 大きく、ポジティブ、ネガティブに分ける事が出来る
評価表現辞書
- 単語感情極性対応表
当たり前だけどひどい精度
何が悪かったか
- ジャンルの限定が必要
- 対象のテキストのクリーニング
  - Webのデータでは必須
- 言語の困難さ
  - 否定表現、未知語、助詞の省略、複合的表現、表記ゆれ、複数の評価の混在
プログラミングの知識にとどまらず、言語学の知識も必要になってくる
独自にやるより論文を見た方が良い

langstat ：「コピー＆ペーストのみで始めるテキストマイニング超入門」

Nicoteki_1

View more presentations from Yuichiro Kobayashi.

コピペで形態素解析が出来る！
- テキスト解析デモ - 日本語形態素解析
  - http://cgi.geocities.jp/ydevnet/sample/jlp/sample2/ma_sample.php
- Language Grid Playground (Morphological Analyzer)
  - http://www.langrid.org/playground/morphological- analyzer.html
コピペで構文解析が出来る！
- Language Grid Playground (Dependency Parser)
  - http://www.langrid.org/playground/dependency- parser.html
コピペで統計解析！
- MEPHAS
  - 医薬学データ用統計解析プログラム
- 多機能 WEB 計算機 –
  - 多機能 WEB 計算機

gepuro ：「初めてのnltk」

学生で、春休み！！

Nltk for biginer

View more presentations from gepuro.

NLTKについて
- 単純化
- 一貫性
- 拡張性
- モジュール性
文字化けとか直しました

bob3bob3 ：「アンケート自由回答のテキストマイニング事例」

今回の発表は、「お金ならあるよ！」って方が対象

資料 : http://www.ikic.co.jp/service/pdf/marketing_6.pdf

商用のテキストマイニングツールがいっぱいある
Text Mining Studio
- 「お値段が一番安いプリウスが買えるくらいとなっております」
今回の発表は、2006年にやったもの。
- 文部大臣に褒められたわけではないが、記事になるくらいにはなった
楽しい食事ってどんな食事
- アンケートとる
- 単語出現頻度分析
  - ひらがな、カタカナ、漢字ぐらいは、ツールの内部でやってくれるが、バーベキューとBBQみたいなのは辞書で対応
- 話題分析（ことばネットワーク）
  - ネットァークのクラスタリング
- 性別で単語出現頻度分析
  - 「楽しい」とか「久しぶり」が女性が多い
- 特徴語分析
  - 「補完類似度」が便利
  - 女性は、感情表現が多い
  - 男性は、具体的なものが多い
- コレスポンデンス分析
  - 縦横の軸の解釈は特にしない
  - 属性の関連性のみを見る
  - 多次元尺度法とかと同じ
- 抽出された仮説
  - 「楽しい食事」であるためには、“何を食べるか”よりも“誰と食べるか”ということが大きな要因として働いているらしい。
  - そのため、「楽しい食事」のメニューとしてはコミュニケーションを促進させるようなものが選ばれやすいのではないか。

具体的な、適用例があってすごく良い発表でした。

まとめ

第一回で80人超えとかすごい
あんちべさんがスーツだった
全体的に、発表者の方の発表がうまく分かりやすかった。