平均値
平均値は誰でも知っている統計量で、実際に計算もできるであろう。
「全部のデータを足して、データの件数で割る」
これが平均値である、と知っている。
x1={ 1,2,3,4,5,6,7,8,9,10 }
という値を持つ件数n=10のデータx1があったとすれば、平均値m1は以下のように計算して、5.5という解を得る。(mは平均の英語meanの頭文字を使った)
実は、他にも平均値には何種類かの定義が存在し、これは厳密な名称は算術平均である。一般的なイメージとして平均値には「真ん中」を示す要約統計量であるとのイメージがあるが、その解釈には後述するように注意が必要である。
ただ、「重心」であるとはいえる。上記のデータx1の場合、平均値は5.5であるが、下図のように●が等重量の天秤上の鉄球だとすれば、平均値5.5とは、天秤が釣り合う重心の位置(下図の▲)を意味している。件数が10という偶数なので、重心の左右に5個のデータがあり、釣り合うのは5と6の中間位置、つまり5.5である。
平均値が「真ん中の値」だと解釈してよいか否かは、データの分布を考える必要があり、下記のように対称分布のデータx2の時(にだけ)、平均値は「真ん中」となる。
それでは、それ以外のデータx3やx4のようなデータはどうだろうか。下表のデータと計算結果は示されている。
<平均値は真ん中ではない:x3>
平均像、平均的世帯などのような用語をする場合、代表的な真ん中あたりを表現しているような気になるが、分布に偏りがあると、平均値は影響を強く受ける。X3のデータでは10個中の6個が1という値に偏っており、平均値を計算すると2となる。左側(値の小さい方)に平均値が偏っている。
統計学では「非正規性に対して敏感である」という。その逆は「非正規性に対して頑健である」という。平均値は敏感だが、中央値は頑健である、という性質を持つ。
<平均値は実在しないことがある:x4>
平均的世帯など、実際にはどこにも存在しないことがある。X4のデータは1と5の値を持つのみであるが、平均値は3と計算される。3という値を持つ個体は実在しない。
<平均値と中央値が話題になる実例>
総務省「家計調査年報(貯蓄・負債編)平成27年(2015年) 貯蓄・負債の概況」に家計調査の結果のグラフがある。貯蓄現在高の平均値は1309万円だが、多くの人にとって実感的に納得できない、という指摘がされることがある。その場合は中央値の761万円が実感により近くなる。データがこのような分布をしている場合は平均値だけではなく中央値も示すことが適切である。
<平均値の数式表現>
ところで、平均値は誰でも知っているし、計算もできるし、非常に重要な統計量でもあるが、調査データを分析していくと、いろいろな参考書に出ている統計量は数式で表現されていることが多い。平均値は以下のように表現される。
この数式は下のように書いてよいが、データ数nが10件ではなく10万件になると書けない。数式表現はn=10000と書くだけで一般的に表現できるので便利である。
日本人は数学嫌いが多く、Σという文字も嫌いな人が多い。そこで、
と書いてもよいのだが、歴史的習慣によりΣを使っているだけである。この記号Σは総和を意味する。英語の和(加算)はSummationだから、その頭文字Sを使うということは英語にとっては「和」と同じくらいに自然な発想であろう。英語の文脈ではアルファベットで文章を書くので、記号にはギリシャ文字を使うことが多い。アルファベットは26文字しかないという事情もあり、混在を避ける意味もある。大文字Sのギリシャ文字がΣということであったに過ぎない。
次に、厄介なのが添字であるが、目障りなら省略してもよいし、実際に自明で誤解の余地がなければ省略することがある。添字を使うことでデータ件数nが、10件でも10万件でも、同じように一般的に書けるので便利なのである。