ビッグデータを活かすデータサイエンス -クロス集計から機械学習までのビジネス活用事例という本を執筆しました!

前回の書籍「ビジネス活用事例で学ぶデータサイエンス入門」の姉妹本つくりました。 今回のはライト層向けの啓蒙的書籍です。 コードは一切ないです。 統計処理の解説をつけました。 用語解説を充実させました。 データサイエンスってなにしているの?的なこ…

第42回Tokyo.Rを開催しました。

第42回Tokyo.Rを開催しました! https://atnd.org/events/54680 今回は、いつもと違って、Y!Jのでの開催で、 株式会社Qubital(キュービタル)データサイエンスさんの社員の方々がスタッフをやってくださいました。 ありがとうございます!! 前半セッショ…

[メモ][TokyoR]ggplot2でのグラフ作成

第42回TokyoRの初心者セッション用のRコードと実行結果 http://rpubs.com/yokkuns/27108

「手を動かしながら学ぶ ビジネスに活かすデータマイニング」を献本頂きました!

「手を動かしながら学ぶ ビジネスに活かすデータマイニング」を献本頂きました! @TJO_datasci さん、ありがとうございます! まだパッとみた感じではあるのですが、本書の内容としては、 各統計手法の解説を中心にビジネス応用する部分の入り口までうまく書…

戦略的データマイニング (シリーズ Useful R 4) という本を執筆しました!

最近、本書いたエントリーしか書いてないんじゃないかと噂ですが、 今回も本書いたエントリーです!(笑)前回の報告のときにも触れましたが、戦略的データマイニング (シリーズ Useful R 4) という本を執筆しました! (ちなみに、初の単著です!) この本…

Rではじめるビジネス統計分析 という本を執筆しました!

Rではじめるビジネス統計分析 という本を執筆しました! 内容は、以下のような感じです。 御社のビッグデータから隠れた“X(宝)"を見つけ出せ! 2013年以降、企業内部で肥大化したビッグデータ(構造化されてない大量のデータ)を利用する動きが活発になってきて…

ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その2)

ビジネス活用事例で学ぶ データサイエンス入門 という本を執筆しました! http://amzn.to/SzXjpe まだ発売前ですが、前回に引き続き、少しだけ中身を紹介してみたいと思います。 興味がありましたら、是非ご予約ください! 2.ビジネスにおけるデータ分析フロ…

ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その1)

ビジネス活用事例で学ぶ データサイエンス入門 という本を執筆しました! http://amzn.to/SzXjpe まだ発売前ですが、少しだけ中身を紹介してみたいと思います。 興味がありましたら、是非ご予約ください! はじめに (※出版社を配慮し、原文そのままではない…

kmeansで楽できる(かもしれない)パッケージを作った

k-means法は、非階層的クラスタリングの代表的な手法ですごく便利ですが、使って行く上で、以下の2つが問題になってきます。 初期値がランダムなので、結果がぶれる 最適なクラスタ数が分からない この2つの弱点に対して拡張版や手法が提案されていますが、…

R CMD checkでno visible binding for global variable 'hoge'

久しぶりにCRANにアップしようと思ったら、R CMD checkで以下のようなのが出てきたのでメモ。 * checking R code for possible problems ... NOTE [関数名]: no visible binding for global variable '[変数名]' ...注意されてる変数を関数内で初期化すれば…

データサイエンティスト養成読本を執筆しました&Data Scientist Casual Talk in 白金台で発表してきました

データサイエンティスト養成読本を執筆しました かなり遅い報告となってしまいましたが、データサイエンティスト養成読本という本を執筆しました!データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software …

DeNAを退職しました

2011年5月に入社して、2年間ほど勤めたDeNAを本日(6/30)付けで退職しました。DeNAでの2年間は、2年間とは思えない程濃い時間で、本当に様々な経験をする事が出来ました。 入社して最初は、データマイニング部という部署に配属され、他部門で解決出来ないよう…

第31回Tokyo.Rを開催しました

第31回Tokyo.Rを開催しました。 ※ 資料がまだのものは、公開され次第追記します! 前半(初心者セッション) 初心者セッション1 (所沢義男) TokyoR#31 初心者セッション from TokorosawaYoshio Rによるやさしい統計学 第7章 分散分析(後半の後半) (@aad3421…

第30回TokyoRを開催しました

遅くなりましたが、4/20に第30回TokyoRを開催しました。 第30回R勉強会@東京(#TokyoR) : ATND 内容に関しては、CodeIQさんのご協力でU-NOTEに素晴らしいまとめ記事を作成して頂いたので、そちらをご確認下さい。 http://u-note.me/note/47484756 次回は6/…

RでHDFS上のデータを読み書きするパッケージを公開しました

RでHadoopを使うパッケージは、RHadoopとかRHIPEとかありますが、 単純にHDFS上のデータを読み書き出来るだけのシンプルなものが欲しかったのでパッケージを作って公開してみました。 http://crantastic.org/packages/rHadoopClient JavaとかPigで一次集計し…

Rで簡単にHTMLレポートを送れるパッケージを公開しました

先日やったRでHTMLレポート配信を、パッケージ化して公開しました! [R] knitr+sendmailR でHTMLレポート配信 - yokkunsの日記 sendmailRで画像付きHTMLメールを送る - yokkunsの日記 Rでレポートメール 準備 修正版sendmailRのインストール $ git clone git…

#CROSS2013で「今日から始まるデータサイエンティスト」やります!

告知が大分遅くなってしまいましたが、1/18の#CROSS2013で、 「今日から始まるデータサイエンティスト」というセッションをやらせて頂きます! http://www.cross-party.com/programs/?p=133 求めらるデータサイエンティストの人材像や、実際の活用について語…

PigのPython UDFを試してみた

pig

PythonでUDFが書けるので試してみた。 User Defined Functions 日付の差を計算するUDFを書いてみる とりあえず、日付の差を計算するUDFを書いてみた。 udf.py @outputSchemaで、出力のスキーマを書いて、あとは普通に書く。 #!/usr/bin/env python import ti…

sendmailRで画像付きHTMLメールを送る

R

前回は、R Advent Calendar 2012 : ATNDに間に合わせるために、現バージョンではHTMLメールが送れない問題と、画像が表示されない問題について苦肉の策をとらざるを得なかった。さすがにあのままじゃちょっと残念な感じなので、これらの問題に対応してみた。…

[R] knitr+sendmailR でHTMLレポート配信

R Advent Calendar2012、4日目です。ふと、Rで分析した結果を定常的にメールでレポートしたいなーと思ったので、knitr+sendmailRで試してみた。大きくは、以下のような流れ。 RStudioで分析&レポート作成 上で作成したRmdファイルからHTMLファイルを生成 生…

ChangeAnomalyDetectionパッケージを使ってHadoopにあるデータの異常検知(変化点検出)

先日作ったChangeAnomalyDetectionパッケージを使ってHadoop上のデータの異常検知する仕組みを考えてみる。 今回は、以下のようにhadoop上にデイリーで蓄積される購買履歴のようなデータを想定する $ hadoop fs -ls /user/yokkuns/buying_history | head Fou…

[pig][メモ]DataFuにあるPageRankを試してみた

Pig UDFのライブラリDataFuに、PageRankがあるらしい事を知ったので試してみた。 ・http://twitter.com/shiumachi/status/253478760119156736 ライブラリのダウンロードと展開 $ wget --no-check-certificate https://github.com/downloads/linkedin/datafu/…

異常検知(変化点検出)のパッケージを作ってみた

R

時系列的な振る舞いの変化点を検出するためのパッケージを作ってみました。 CRAN: http://cran.r-project.org/web/packages/ChangeAnomalyDetection/ github: https://github.com/yokkuns/r-AnomalyDetection Usage changeAnomalyDetection(x, term = 30, sm…

Uplift Modelのパッケージを作ってみた

R

費用対効果の最大化するためのデータマイニング手法であるUplift ModelをRで実装してパッケージ化してみました。 Uplift Modelling: 費用対効果の最大化を目的とした最新のデータマイニング手法 - yokkunsの日記 Google Code Archive - Long-term storage fo…

第26回TokyoRでData Fusionについて発表しました

先日、第26回TokyoRを開催しました。 http://atnd.org/events/31518 今回、ちょっとバタバタしてメモを取り忘れたので、自分の発表資料だけ載せておきます。 R言語で学ぶData Fusino入門 Tokyor26 data fusion from yokkuns Rで、ディリクレ過程混合モデルま…

ネットワーク構造の分析 - コミュニティの抽出

ある程度の規模のネットワークでは、内部にサブネットワーク(コミュニティ)が形成されることがある 例えば、大学のネットワーク図を描くと、何となく学部だったりサークルのグループが見えてくる このよなコミュニティの抽出方法として、辺の媒介中心性を…

[R][ネットワーク分析] ネットワークにおいてどれくらい中心的かの指標

ネットワーク分析で最も良く用いられる指標として、中心性というものがある 今回は、その中でも3つの指標に絞って紹介 次数中心性 友達が多い人が高く評価される指標 友達の数を数えるだけなので、計算も簡単 データの入力と描画 A <- matrix(c( 0,1,1,1,1,1…

[R][ネットワーク分析] ネットワーク構造の諸指標

ネットワーク分析 (Rで学ぶデータサイエンス 8)の第3章の内容 密度(density) グラフにおいて張ることの出来る全てのエッジの数に対する、実際のエッジの数の比率 例 データの入力 library(igraph) A <- matrix(c( 0,1,1,1,1, 1,0,0,1,1, 1,0,0,0,0, 1,1,0,…

第22回Tokyo.Rを開催しました

4/28に第22回Tokyo.Rを開催しました! - http://atnd.org/events/26386 内容 まだ資料が出そろってないので、とりあえず自分のやつだけ載っけておきます。 Tokyor22 selection bias View more presentations from yokkuns 懇親会とかで話してて気付いたんで…

CentOS 5.7にemacs23.4をインストール

@a_bickyが、EmacsのPigメジャーモードを公開してくれたので、早速使ってみたら、以下のようなエラーが出た Symbol's function definition is void: syntax-ppsssyntax-ppssってのが空との事だが、どうやらCentOSでデフォルトで提供されているEmacsのバージ…