2012-01-01から1年間の記事一覧

PigのPython UDFを試してみた

pig

PythonでUDFが書けるので試してみた。 User Defined Functions 日付の差を計算するUDFを書いてみる とりあえず、日付の差を計算するUDFを書いてみた。 udf.py @outputSchemaで、出力のスキーマを書いて、あとは普通に書く。 #!/usr/bin/env python import ti…

sendmailRで画像付きHTMLメールを送る

R

前回は、R Advent Calendar 2012 : ATNDに間に合わせるために、現バージョンではHTMLメールが送れない問題と、画像が表示されない問題について苦肉の策をとらざるを得なかった。さすがにあのままじゃちょっと残念な感じなので、これらの問題に対応してみた。…

[R] knitr+sendmailR でHTMLレポート配信

R Advent Calendar2012、4日目です。ふと、Rで分析した結果を定常的にメールでレポートしたいなーと思ったので、knitr+sendmailRで試してみた。大きくは、以下のような流れ。 RStudioで分析&レポート作成 上で作成したRmdファイルからHTMLファイルを生成 生…

ChangeAnomalyDetectionパッケージを使ってHadoopにあるデータの異常検知(変化点検出)

先日作ったChangeAnomalyDetectionパッケージを使ってHadoop上のデータの異常検知する仕組みを考えてみる。 今回は、以下のようにhadoop上にデイリーで蓄積される購買履歴のようなデータを想定する $ hadoop fs -ls /user/yokkuns/buying_history | head Fou…

[pig][メモ]DataFuにあるPageRankを試してみた

Pig UDFのライブラリDataFuに、PageRankがあるらしい事を知ったので試してみた。 ・http://twitter.com/shiumachi/status/253478760119156736 ライブラリのダウンロードと展開 $ wget --no-check-certificate https://github.com/downloads/linkedin/datafu/…

異常検知(変化点検出)のパッケージを作ってみた

R

時系列的な振る舞いの変化点を検出するためのパッケージを作ってみました。 CRAN: http://cran.r-project.org/web/packages/ChangeAnomalyDetection/ github: https://github.com/yokkuns/r-AnomalyDetection Usage changeAnomalyDetection(x, term = 30, sm…

Uplift Modelのパッケージを作ってみた

R

費用対効果の最大化するためのデータマイニング手法であるUplift ModelをRで実装してパッケージ化してみました。 Uplift Modelling: 費用対効果の最大化を目的とした最新のデータマイニング手法 - yokkunsの日記 Google Code Archive - Long-term storage fo…

第26回TokyoRでData Fusionについて発表しました

先日、第26回TokyoRを開催しました。 http://atnd.org/events/31518 今回、ちょっとバタバタしてメモを取り忘れたので、自分の発表資料だけ載せておきます。 R言語で学ぶData Fusino入門 Tokyor26 data fusion from yokkuns Rで、ディリクレ過程混合モデルま…

ネットワーク構造の分析 - コミュニティの抽出

ある程度の規模のネットワークでは、内部にサブネットワーク(コミュニティ)が形成されることがある 例えば、大学のネットワーク図を描くと、何となく学部だったりサークルのグループが見えてくる このよなコミュニティの抽出方法として、辺の媒介中心性を…

[R][ネットワーク分析] ネットワークにおいてどれくらい中心的かの指標

ネットワーク分析で最も良く用いられる指標として、中心性というものがある 今回は、その中でも3つの指標に絞って紹介 次数中心性 友達が多い人が高く評価される指標 友達の数を数えるだけなので、計算も簡単 データの入力と描画 A <- matrix(c( 0,1,1,1,1,1…

[R][ネットワーク分析] ネットワーク構造の諸指標

ネットワーク分析 (Rで学ぶデータサイエンス 8)の第3章の内容 密度(density) グラフにおいて張ることの出来る全てのエッジの数に対する、実際のエッジの数の比率 例 データの入力 library(igraph) A <- matrix(c( 0,1,1,1,1, 1,0,0,1,1, 1,0,0,0,0, 1,1,0,…

第22回Tokyo.Rを開催しました

4/28に第22回Tokyo.Rを開催しました! - http://atnd.org/events/26386 内容 まだ資料が出そろってないので、とりあえず自分のやつだけ載っけておきます。 Tokyor22 selection bias View more presentations from yokkuns 懇親会とかで話してて気付いたんで…

CentOS 5.7にemacs23.4をインストール

@a_bickyが、EmacsのPigメジャーモードを公開してくれたので、早速使ってみたら、以下のようなエラーが出た Symbol's function definition is void: syntax-ppsssyntax-ppssってのが空との事だが、どうやらCentOSでデフォルトで提供されているEmacsのバージ…

第21回Tokyo.Rを開催しました!

2012/3/10に、第21回Tokyo.Rを開催しました! http://atnd.org/events/24811 @aad34210: 続・はじめてのR (30分) Tokyo r21 2 View more PowerPoint from aad34210 R言語の初心者向けの発表。 プログラミングの基本である条件分岐とループから、 R言語の基本…

Uplift Modelling: 費用対効果の最大化を目的とした最新のデータマイニング手法

ざっくりとまとめてみた Uplift Modelling 入門(1) View more presentations from yokkuns Rで楽に実装する方法が無いか調べてるんですが、既存のものでは難しそう。。。 もう少し調べてなければ、頑張ってパッケージ化したいと思います!

[ECCUBE][メモ]EC CUBE構築メモ

ふと思い立って、EC CUBEを構築してみたのでメモ。 (最近全然出来てないですが、実は、コミッターだったりします) データベースの設定 まずはデータベースの設定。 今使っている環境は、個人用のmysqlを動かしているため、tmysqlというコマンドになっていま…

第4回複雑ネットワーク勉強会

第4回複雑ネットワーク勉強会のメモ WSモデルの解析 Lが厳密には定義出来ない 空間について連続近似を行う 頂点が輪の上に連続的に分布していると見なす事で、空間微分が使え、計算が易しくなる 単位時間に輪の上を枝一本分の長さだけ進むインクを考える が…

2012年抱負

明けましておめでとうございます! 今年最初のエントリは、今年の抱負です。去年は、個人的な目標として転職を考えていて、5月の段階で達成して、その後は目の前の事でいっぱいいっぱいになり、先の事が全然見れてなかったような気がします。 なので、今年…