「なぜそうなのか?」を数値化する

データ分析

データ分析の続き。
前回までで、データの「何を見るのか?」「どうみるのか?」は見えてきた。
ここからは「なぜそうなのか?」を見ていこう。

 

データ分析のよくある失敗

データを整理してある程度の結果が得られると、いきなり考察に入ってしまう。

例えばこんな結果が得られたとする。

例)来客数に対して売上げが減少しています。
 接客に問題があると思われます。
 私は数字からの結論を導き出したので間違いありません。

「来客数に対して売上が減少している」ことは数字から読み取れるが、
「接客に問題がある」までは読み取れていない。
原因の特定の段階で想像や推論、思いつきが入ってしまっているが、
原因の特定も根拠から導かなければ意味がない。

 

結果に影響しそうな要因を挙げる(仮説を立てる)

もしかしたら「接客に問題がある」のかもしれないし、
もしかしたら別の要因なのかもしれない。
結果に影響しそうな要因をいくつか考え、
本当に影響しているかを数値化して検証する。

 

その関係性を数値化する(相関係数)

相関係数は2つの変数の相関(関係性)を数値化したもの。
こちらもExcelで簡単に求まるので、求め方は割愛する。

相関係数の求め方

相関係数は-1~1の間で求まり、統一的な基準はないが
おおよそ以下のような基準がよく用いられる。
(相関係数の値と相関(あくまで目安))

相関係数の値 相関
−1  ~ −0.7 強い負の相関
−0.7 ~ −0.4 負の相関
−0.4 ~ −0.2 弱い負の相関
−0.2 ~  0.2 ほとんど相関がない
0.2 ~  0.4 弱い正の相関
0.4 ~  0.7 正の相関
0.7 ~  1 強い正の相関

仮説を立てた要因と結果の相関係数が0に近い場合、その仮説は間違っていると判断できる。
相関のない要因をいくら改善しても、結果には影響しないのでその仮説は捨てた方がよい。
逆に、1(もしくは-1)に近い場合、仮説の裏づけとなる。

 

プロセスのどこかに問題があるとわかっている場合、 プロセス間の相関を数値化し問題を可視化する

例えば以下のようなプロセスで活動しているケース。

広告 > 来店 > 問い合わせ > 購入

それぞれのプロセスの結果を測定し、前後のプロセスで相関を数値化する。
相関が低くなっているところに原因がある事がわかる。

1のプロセス間で相関が減少している = 広告の仕方に問題があるため、来店者数が少ない
2のプロセス間で相関が減少している = 来店者への対応に問題があるため、問い合わせに繋がらない
3のプロセス間で相関が減少している = 問い合わせ客へのフォローに問題があるため、で購入に繋がらない

相関を数値化することで、どのプロセスに問題があるか特定できる。

 

相関を考える時の注意点

一方、相関係数は因果関係があることを保証するわけではない。
相関係数が高いからといって、一方がもう一方の原因であることを
証明しているわけではないので、注意が必要である。
以下はその一例。

単なる偶然
単なる偶然でも相関が現れる場合がある。

例)海賊の数が減るにつれて、同時に地球温暖化が大きな問題となってきた。
  したがって、地球温暖化は海賊の減少が原因だ。
 (海賊の数が減少したのと地球温暖化が問題となった時期がたまたま同じだっただけ)

 
擬似相関
直接的な因果関係はないのに、見えない要因によって因果関係があるように見えてしまう場合がある。

例)アイスクリームの売上が高い日は、プールの溺死事故が多い。
  したがって、アイスクリームには溺死事故の原因がある。
 (実際には「猛暑の日だった」と言う隠れた要因がある)

 
「原因」と「結果」を逆に捉えてしまう
相関係数からはどちらが原因なのかはわからない。

例)火災現場に出動する消防士が多いほど、火災の規模は大きい。
  出動する消防士の数が、火災が大きくなる原因である。
  出動する消防士の数を減らせば、火災が大きくなるのを防ぐことができる。
  (実際には逆で規模の大きな火災だから、出動する消防士の数が多くなる)

原因と結果が逆でも同じように相関があると判断されるが、
原因と結果を逆にすると、間違った結論や対策に結びついてしまう。

 

データ範囲の違いが大きく影響する

データの一部分だけを切り取るで、相関が大きくなったり小さくなったりすることがある。

同様にあまりに大きくずれているからとデータを選別すると、相関係数が変わってしまう。
選別によって、相関係数をコントロールできてしまうので選別は極力しないことが望ましい。

 

この先どうなるか?(どうするか?)

さて、いくつかの要因を調べた結果「なぜそうなるか?」がわかった。
次はどうするかを考えていこう。
  
過去の傾向から未来をよそうしたい時がある。
例えば、過去のデータから広告費と来店者数には相関があることがわかっているとする。
来月の目標来店者数を達成するためにはいくら広告費をかければよいか?
これを調べるために「単回帰分析」を行う。

 

過去のデータから傾向を数式化する(単回帰分析)

二つのデータに相関関係がある事が明らかなら、単回帰分析で結果を予測することが可能になる。
※複数の要因から導かれる要因は重回帰分析で求められるが、ここでは割愛。
単回帰分析することにより、関係性を一次方程式にすることができる。

例)広告費と売上げの関係を一次方程式にすれば、
  目標来場者数を達成するために必要な広告費が割り出せる。

  

単回帰分析のやり方はExcelで簡単にできるので、
例によってやり方は割愛。

単回帰分析のやり方

この中で「y=6.1007x+62.332」が関係性を表している。
来店者数(y)を500人にするためには広告費をいくらかければよいか?は
この一次方程式を解けばわかる。
なお、「R^2」は「決定係数」や「寄与率」と呼ばれ、
回帰分析の精度を表しており、1に近いほど精度が高いと言える。

これで、次のアクションも見えてきた。
では見えた結果をどうするのか?
これは次回にしよう。

コメント

タイトルとURLをコピーしました