第1回 にこにこテキストマイニング勉強会(#nicoTextMining)に参加してきた
第1回 にこにこテキストマイニング勉強会に参加してきました。
toilet_lunch : 「ゆるふわテキストマイニングをしてみよう」
資料 : http://toilet-lunch.sakura.ne.jp/nicoTextMining01.pdf
- 評判分析のツールを作った
- 何をしているのか
- 入力されたセイン名でtwitterのログを検索
- 検索された発言から、製品を評価しているらしいものを選択
- 発言にポジティブらしさ、ネガティブらしさの点数をつける
- 表示
- 評価表現を使う
- 物事に対する評価を表しているようなことば
- 大きく、ポジティブ、ネガティブに分ける事が出来る
- 評価表現辞書
- 単語感情極性対応表
- 当たり前だけどひどい精度
- 何が悪かったか
- ジャンルの限定が必要
- 対象のテキストのクリーニング
- Webのデータでは必須
- 言語の困難さ
- 否定表現、未知語、助詞の省略、複合的表現、表記ゆれ、複数の評価の混在
- プログラミングの知識にとどまらず、言語学の知識も必要になってくる
- 独自にやるより論文を見た方が良い
langstat : 「コピー&ペーストのみで始めるテキストマイニング超入門」
Nicoteki_1
View more presentations from Yuichiro Kobayashi.
- コピペで形態素解析が出来る!
- テキスト解析デモ - 日本語形態素解析
- Language Grid Playground (Morphological Analyzer)
- コピペで構文解析が出来る!
- Language Grid Playground (Dependency Parser)
- コピペで統計解析!
- MEPHAS
- 多機能 WEB 計算機 –
gepuro : 「初めてのnltk」
学生で、春休み!!
Nltk for biginer
View more presentations from gepuro.
- NLTKについて
- 単純化
- 一貫性
- 拡張性
- モジュール性
- 文字化けとか直しました
bob3bob3 : 「アンケート自由回答のテキストマイニング事例」
今回の発表は、「お金ならあるよ!」って方が対象
資料 : http://www.ikic.co.jp/service/pdf/marketing_6.pdf
- 商用のテキストマイニングツールがいっぱいある
- Text Mining Studio
- 「お値段が一番安いプリウスが買えるくらいとなっております」
- 今回の発表は、2006年にやったもの。
- 文部大臣に褒められたわけではないが、記事になるくらいにはなった
- 楽しい食事ってどんな食事
- アンケートとる
- 単語出現頻度分析
- ひらがな、カタカナ、漢字ぐらいは、ツールの内部でやってくれるが、バーベキューとBBQみたいなのは辞書で対応
- 話題分析(ことばネットワーク)
- ネットァークのクラスタリング
- 性別で単語出現頻度分析
- 「楽しい」とか「久しぶり」が女性が多い
- 特徴語分析
- 「補完類似度」が便利
- 女性は、感情表現が多い
- 男性は、具体的なものが多い
- コレスポンデンス分析
- 縦横の軸の解釈は特にしない
- 属性の関連性のみを見る
- 多次元尺度法とかと同じ
- 抽出された仮説
- 「楽しい食事」であるためには、“何を食べるか”よりも“誰と食べるか”ということが大きな要因として働いているらしい。
- そのため、「楽しい食事」のメニューとしてはコミュニケーションを促進させるようなものが選ばれやすいのではないか。
具体的な、適用例があってすごく良い発表でした。
まとめ
- 第一回で80人超えとかすごい
- あんちべさんがスーツだった
- 全体的に、発表者の方の発表がうまく分かりやすかった。