第12回データマイニング+WEB ＠東京　( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析祭り− に参加してきた

第12回データマイニング+WEB ＠東京　( #TokyoWebmining 12th)−機械学習 MapReduce・大規模R解析祭り− に参加してきました。

以下、メモです。

Map Reduce 〜入門編：仕組みの理解とアルゴリズムデザイン〜

View more presentations from Takahiro Inoue

ランダムアクセスを避け、シーケンシャルアクセス。シーケンシャルな読み取りに限定して高速化
- MAP ReduceにSSDはあまり効果なし？
  - SSDだと早くなるけど、如何せん高い

Splitフェーズ
- 複数のmap処理を可能にするためデータを分割
- Hadoopではデフォルトで64MBのブロックに分割されmapperに渡される
  - メリット : 高性能なサーバにどんどんデータを回せる

Serializeフェーズ
- valueのデータ型は自由
- 複雑な構造を持て、勝つネットワーク転送コスト低
  - Avro、Thrift、Message Pack、Protocol Buffer

Map Reduceを扱う際の注意点
- Reduce間での処理量の偏り
  - デフォルトのPartitionerはキーのハッシュ値でReduce引き渡し先決定するため、valueリストのサイズがキーによって差が大きい場合はreducer間で処理量が偏る。
  - 独自のPartitionerを定義して防ぐ

Tokyo webmining-12

View more presentations from Koichi Fujikawa

まとめ
- 大規模機械学習に必要なデータの操作を行ったりスクリプトを公開することで、Knowledgeも共有出来る
- 現在β版公開中！どんどんバージョンアップします！

Tokyo webmining 第12回_201106

View more presentations from Issei Kurahashi

KsamplePlot(説明変数行列, 結果変数ベクトル, Method="")

Tokyowebmining12

View more presentations from YATSUTA Toshihisa

x <- foreach(j=1:3, .combine="hogehoge") %do% sum(m[,j])