ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その2)

ビジネス活用事例で学ぶ データサイエンス入門 という本を執筆しました!



まだ発売前ですが、前回に引き続き、少しだけ中身を紹介してみたいと思います。
興味がありましたら、是非ご予約ください!

2.ビジネスにおけるデータ分析フロー

データ分析における5つのフロー

ビジネスにおけるデータ分析の目的は、ビジネスで発生したさまざまな問題を統計解析や機械学習データマイニングの各種方法論を駆使して解決することと言えます。
ここで気をつけたいのが、あくまでも問題解決が目的ということです。

たとえば、データ分析専任の会社に分析を依頼したら、やたら難しそうな大量の資料がでてきた。
結論はよく考えると当たり前のことだった、といったことはないでしょうか? 
学術の分野からデータ分析者となった分析者、あるいはビジネスを熟知していない外部組織の分析に頼るときに良く起きる現象です。

高度で複雑なモデルによる高精度な分析結果は、実は必ずしもそれだけでは価値が高いとは言えません。
複雑なモデリングに時間をかけるよりも、簡単なクロス集計(分割表)を用いて短時間で分析結果を出したほうが、価値が高いということもビジネスの現場では珍しくはありません。
解決すべき問題に合わせて、「データ分析者」が分析方法の設計、実行できることが大事であり、
そこを誤ってしまうと、データ分析の価値は乏しくなってしまう可能性があります。

では、具体的にはビジネスにおけるデータ分析はどのように進めていくのでしょうか? 
それぞれの組織構造で若干の違いはありますが、大きくは以下のフレームワークで進められています。

...

現状とあるべき姿

「問題」は、そのときの、そのビジネスがおかれている環境から作り出される「あるべき姿」によって変わります。

例えば、野球好きが集まったとします。
みんな野球好きなので、「野球が上手くなりたい」という共通の目的がありますが、
人によっては、

  • 1年後にメジャーリーグに挑戦したい (無理っぽい)
  • 2年後の草野球で勝てればいい (効率悪い)
  • 3年後に全国大会に出たい (時間かかりすぎ)


と、理想像が異なっています。
このような理想がずれている状態で取り組んでも分析は上手く機能しません。
このような場合、まず現実的な時間と到達点を整理するのも分析者の仕事になります。

...

  • あるべき姿が明確でない時のイメージ


整理した結果、来年までにピッチャーが140km/hの玉を投げられる状態と決まったとします。
共通の理想像はすり合っている状態ですが、現状についてはまだ分かっていません。
人によっては、

  • もう139km/hくらい出てるよ (過大評価)
  • いやいや、まだ100km/h程度だ (過小評価)

と現状の認識が合っていません。
このような場合も、そのまま取り組んでも分析は上手く機能しないため、
まず現状の定量化するということから始める必要があります。

  • 現状が明確でない時のイメージ

問題発見

データ分析においては、「現象」と解決すべき「問題」とは、明確に区別する必要があります。
「売上が落ちている」や「顧客が離脱している」などは、ビジネスの文脈では通常「問題」として挙げられます。

しかし、データ分析の文脈では、実はこれらはただの「現象」にすぎません。
これらの「現象」をもとに、企画職・エンジニア職・サービス運用職など、ビジネス担当者でしっかりと議論し、
解決すべき「問題」を見つけ出すことが重要です。

...

  • 「現象」と「問題」とを区別する
  • 「あるべき姿」をイメージして、「現状」のギャップを意識する
  • 問題発見のための3つの切り口
データ収集と加工
  • データ収集

解決すべき問題が明確になったら、その問題を検証するために必要なデータを集めます。

...

  • データ加工

分析に必要なデータを収集したら、次は、分析するためにデータ加工を行ないます。
一般的なデータ分析の教科書では、分析手法の理解を目的としているため、その手法を実行するために都合の良いデータが用意されています。
しかしながら、実際のデータ分析の現場では、分析手法にあわせ、自分で都合の良いデータを加工していくことが必要となります。

...


データ分析

ビジネスにおけるデータ分析は、その問題の種類によって、「意思決定支援」と「自動化・最適化」の2つに大別できます。

まず「意思決定支援」のほうは、問題解決のためのアクションを人間が決定・実行するのを支援することを目的にしています。
そのため、人間が理解して適切な判断ができることが重要になってきます。
こちらを主眼としたデータ分析では、高度で複雑なモデルよりも、よりシンプルで理解しやすいモデルが効果的であり、クロス集計が活躍する場面です。

一方「自動化・最適化」のほうは、問題解決のためのアクションをコンピュータに実行させるためのアルゴリズムの構築が目的になります。
そのため、理解しやすさよりも、アルゴリズムの計算量と精度が重要視されます。

意思決定支援 自動化・最適化
目的 人間のアクション決定の支援 コンピュータのアクション支援
目標 コミュニケーションコストの低減 推定精度向上、計算量削減
良く使われる手法 単純集計、クロス集計 機械学習アルゴリズム構築

...

  • 意思決定支援に役立つ統計解析
  • 自動化・最適化に役立つ機械学習
アクション

アクションは「人間が意思決定をして新たに何かをはじめる/やめる」ものと、
「アクションを実行するためのアルゴリズムを構築してコンピュータで実行させる」ものの2つがあります。
これは前述のデータ分析のところで説明した「意思決定支援」と「自動化・最適化」と対応しています。

...