第11回R勉強会@東京(Tokyo.R#11)を開催しました。

第11回R勉強会@東京(Tokyo.R#11)を開催しました!

Rによるデータサイエンス第?部 第6章 自己組織化マップ

発表者 : @bob3bob3さん

  • 要は、脳内メーカー(?)
  • 大規模データ向け
  • 主成分分析や因子分析に比べて、何が変わってくるのかが良く分からない

ggplot2:パッケージ製作者(Wickamさん)の話を聞いて

発表者 : @aad34210さん

  • こんな人向け
    • デフォルトのplotでは物足りない
    • 簡単にきれいなグラフ描きたい
  • 基本的な使い方
    • ggplot
    • qplot
  • グラフの重ねがき
    • ggplotの場合 : ~+ geo_jitter() + geom_boxplot()のように連結していけばよい
    • qplotの場合 : geom = c("jitter", "boxplot")のようにc()で追加

caretパッケージの紹介

発表者 : @dichikaさん

  • 機械学習を使うとき
    • 例えばSVM
      • 初心者はパラメータ等適当に決めがち
      • 良い結果を出すためには、前処理、チューニングが必要
  • caret以上とは
  • caretレシピ
    • 前処理
    • モデル作成/評価
    • モデル比較


caret便利!

RにおけるHPC 並列計算編

発表者 : @sfchaosさん

  • High Performance Computing(高性能計算)
  • メリット
    • 複数のCPUを用いて計算することにより、計算時間を削減できる
    • 大規模なデータを管理、分析出来る
    • Rの標準機能だけを用いて、大規模データを扱うのはほとんど不可能
    • Rの問題 : 速くない!マルチコアを活用できない!オンメモリ!32bit!
  • snowパッケージ
  • foreachパッケージ

Rで始めるテキストマイニング

発表者 : @nlp_prml

発表資料は後で上げます

  • マイニング : 面白いことを言う
  • テキストマイニングの概要・利点
    • ブログや掲示板など定型化されていないものをデータとして収集できる
    • 分析できるデータの範囲が大幅に拡大
    • データ収集車のフィルタがかかっていない生の声
    • パーソナリティを取得し、ターゲティング可能
    • 8割くらいでパーソナリティ取得可能
  • 活用方法
  • 日本の全言語学者を震撼させた「モーニング娘。問題」
  • 日本の全言語学者を震撼させている「りりかるなのは問題」

R言語による Random Forest 徹底入門

発表者 : @hamadakoichiさん

  • 日本初のR言語の人材募集があったよ!
  • Random Forestとは
    • 決定木の集団学習により、高精度の分類・予測を行う
  • 決定木が解決する問題
    • 不具合原因の特定・改善
    • 投資効果の高いターゲットの限定
    • より継続的に楽しんでもらえるサービス改善
  • carsデータ
    • 車速度とブレーキ後の停車距離の関係構造算出