第12回 データマイニング+WEB @東京 ( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− に参加してきた
第12回 データマイニング+WEB @東京 ( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− に参加してきました。
以下、メモです。
1.「MapReduce〜入門編:仕組みの理解とアルゴリズムデザイン〜」 (講師:@doryokujin ) (発表30分+ 議論30分)
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
View more presentations from Takahiro Inoue
- Splitフェーズ
- 複数のmap処理を可能にするためデータを分割
- Hadoopではデフォルトで64MBのブロックに分割されmapperに渡される
- メリット : 高性能なサーバにどんどんデータを回せる
- Serializeフェーズ
- valueのデータ型は自由
- 複雑な構造を持て、勝つネットワーク転送コスト低
- Avro、Thrift、Message Pack、Protocol Buffer
- Combineフェーズ
- Map処理結果に対してローカルでReduce処理を行う
- Partitioner
- keyごとにReduceへ引き渡す際の引き渡し先を決定
- デフォルトではハッシュ値を元に決定
- Map Reduceを扱う際の注意点
-
- Suffleフェーズでの通信量の削減
- ローカル処理の中でいかにサイズを小さくしておけるか
- Suffleフェーズでの通信量の削減
「HapyrusでHadoopによる機械学習を簡単に」 (講師: @fujibee) (発表20分 + 議論20分)
Tokyo webmining-12
View more presentations from Koichi Fujikawa
- Hapyrusとは
- 大量分散データ処理のためのWebサービス
- Hadoopアプリケーションのための
- PaaS=開発•実行
- ディストリビューション=マーケットプレイス
- クラウド環境上で動作
- 基本利用は無料•アプリケーションかきんや大量データ処理のみ課金
- hapyrusはJavaは今のところ対応していない
- Rはストリーミングで使えるので対応してもらえるかも?
「大規模データマイニングでのモデル探索手法:K-sample plot」 (講師: @isseing333) (発表30分 + 議論30分)
Tokyo webmining 第12回_201106
View more presentations from Issei Kurahashi
- 予測性能をどうやって評価するか
- 予測力 : R-square、Explained Valiance
- 100万サンプルでSVMを使いた場合の解決策(1)
- サンプリング
- 問題点 : 結果の妥当性
- 中心極限定理
- サンプル数を増やすと平均値の誤差は小さくなる
- 検出力
- サンプル数を増やすと予測性能があがる
- K-sample Plot (KsPlot)
- アイディア : サンプル数を増やしていって予測性能を調べる
- CRANで公開
- KsPlotパッケージ
KsamplePlot(説明変数行列, 結果変数ベクトル, Method="")
「Rで並列処理:foreachパッケージ解剖学」 (講師: @tyatsuta) (発表30分 + 議論30分)
Tokyowebmining12
View more presentations from YATSUTA Toshihisa
- 今作ってるソフトの紹介
- 行列計算の可視化
- 行列の積は、たこ焼きを作っているんだ。(via @lumin)
- Haskellで書いている
- foreach構文
x <- foreach(j=1:3, .combine="hogehoge") %do% sum(m[,j])