Webいまさら聞けない「統計」のはなし

クライアントへの提案、上司への報告、部下への教育。様々なシーンで「根拠」が求められるWebマーケティング業界において、「統計」は避けては通ることは出来ません。しかし「統計」は、特に数学が苦手な文系ビジネスパーソンにとって、出来れば避けたいもの。そこで、この連載では、最低限の統計分析に関する基礎知識を、なるべく分かりやすく、ご紹介させていただきます。

今回は、次の10人のビジネスパーソンの年収を利用して、「平均値」「中央値」「最頻値」の3つの指標について考えてみることにしましょう。

《ビジネスパーソン10人の年収一覧:パターンA》

《ビジネスパーソン10人の年収一覧:パターンA》

■平均の求め方と指標の特徴

集団の中心的傾向を示す値を「代表値」といいます。代表値として、最も使われるのが「平均」です。平均は、

①全ての分布に常に存在する

②ただ一つの平均値が得られる

③計算が容易

④全てのデータを用いる

⑤意味が明確

⑥高度な統計計算にも利用される

とメリットが多いのですが、外れ値の影響を受けやすいため、「適切な代表値でない」場合があります。例えば、上図の10人の平均年収は\3,375,000です。では、仮にJさんが事業で成功を為し、年収が1億円に大幅アップしたとすれば、どうなるでしょうか?

《ビジネスパーソン10人の年収一覧:パターンB》

《ビジネスパーソン10人の年収一覧:パターンB》

この場合、Jさん以外の9人は、収入が変化していないのに、平均年収は\12,875,000となってしまいます。このように、データに外れ値が加わった場合、平均値は3つの指標の中で最も影響を受けるデータと言えます。それでは、中央値・最頻値であればどうなるのか見ていきましょう。

■中央値・最頻値の求め方と指標の特徴

中央値は、その名のとおり、「分布の中央にくる値」のことです。なお、変量の個数nが奇数の時は真ん中の値を取りますが、偶数のときは真ん中の2つを加えて2で割った値となります。また、中央値より大きい値の個数と小さい値の個数は同数となります。最頻値とは最も多い頻度を示す値の事です。

では10人のビジネスパーソンの年収の中央値・最頻値を、パターンA・パターンBそれぞれの場合で考えてみましょう。

まとめ


中央値・最頻値は、いずれもJさんの大幅収入アップという外れ値の影響を受けていません。このように、中央値・最頻値は、アウトライヤー(外れ値・例外値・極端値)の影響を受けず、煩雑な計算も必要としないというメリットがあります。

ただし、中央値を求める場合、データが大量であった場合は、序列をつけることは容易ではないことや、最頻値の場合、そもそも最頻値が存在しない場合や、最頻値が複数ある場合は、代表値として適切ではなくなるなどデメリットもあります。

代表値とは、データの特徴を表すのに最も重要な値と言えます。そのため代表値を使用する場合は、上記のようにデータの特徴や分析手法を考慮し、最も的確な値を使用することが大切です。


《参考文献》

・はじめての統計学 鳥居康彦 日本経済新聞出版社

・「それ、根拠あるの?」と言わせない データ・統計分析ができる本 柏木 吉基 日本実業出版社

・総務省統計局Webサイト「なるほど統計学園高等部」

 http://www.stat.go.jp/naruhodo/index.htm

hybrid-banner.png