
Webマーケティング
Webいまさら聞けない「統計」のはなし
クライアントへの提案、上司への報告、部下への教育。様々なシーンで「根拠」が求められるWebマーケティング業界において、「統計」は避けては通ることは出来ません。しかし「統計」は、特に数学が苦手な文系ビジネスパーソンにとって、出来れば避けたいもの。そこで、この連載では、最低限の統計分析に関する基礎知識を、なるべく分かりやすく、ご紹介させていただきます。
今回は、次の10人のビジネスパーソンの年収を利用して、「平均値」「中央値」「最頻値」の3つの指標について考えてみることにしましょう。
《ビジネスパーソン10人の年収一覧:パターンA》
■平均の求め方と指標の特徴
集団の中心的傾向を示す値を「代表値」といいます。代表値として、最も使われるのが「平均」です。平均は、
①全ての分布に常に存在する
②ただ一つの平均値が得られる
③計算が容易
④全てのデータを用いる
⑤意味が明確
⑥高度な統計計算にも利用される
とメリットが多いのですが、外れ値の影響を受けやすいため、「適切な代表値でない」場合があります。例えば、上図の10人の平均年収は\3,375,000です。では、仮にJさんが事業で成功を為し、年収が1億円に大幅アップしたとすれば、どうなるでしょうか?
《ビジネスパーソン10人の年収一覧:パターンB》
この場合、Jさん以外の9人は、収入が変化していないのに、平均年収は\12,875,000となってしまいます。このように、データに外れ値が加わった場合、平均値は3つの指標の中で最も影響を受けるデータと言えます。それでは、中央値・最頻値であればどうなるのか見ていきましょう。
■中央値・最頻値の求め方と指標の特徴
中央値は、その名のとおり、「分布の中央にくる値」のことです。なお、変量の個数nが奇数の時は真ん中の値を取りますが、偶数のときは真ん中の2つを加えて2で割った値となります。また、中央値より大きい値の個数と小さい値の個数は同数となります。最頻値とは最も多い頻度を示す値の事です。
では10人のビジネスパーソンの年収の中央値・最頻値を、パターンA・パターンBそれぞれの場合で考えてみましょう。
中央値・最頻値は、いずれもJさんの大幅収入アップという外れ値の影響を受けていません。このように、中央値・最頻値は、アウトライヤー(外れ値・例外値・極端値)の影響を受けず、煩雑な計算も必要としないというメリットがあります。
ただし、中央値を求める場合、データが大量であった場合は、序列をつけることは容易ではないことや、最頻値の場合、そもそも最頻値が存在しない場合や、最頻値が複数ある場合は、代表値として適切ではなくなるなどデメリットもあります。
代表値とは、データの特徴を表すのに最も重要な値と言えます。そのため代表値を使用する場合は、上記のようにデータの特徴や分析手法を考慮し、最も的確な値を使用することが大切です。
《参考文献》
・はじめての統計学 鳥居康彦 日本経済新聞出版社
・「それ、根拠あるの?」と言わせない データ・統計分析ができる本 柏木 吉基 日本実業出版社
・総務省統計局Webサイト「なるほど統計学園高等部」