中央値
中央値(median)とは、データを大きい順に並べた時の中央の値。中位数ともいう。データの件数が偶数の場合は、中央の2つの値の平均値を中央値とする。
中央値と平均値は分布が対象の時に一致するが、一般に一致しない。「真ん中の代表的な値」という直観的なイメージは中央値の方が適している場合がある。それは分布が偏っている場合である。
下図は対称な分布である。平均値は6であり、中央値も6である。値は一致する。
下図の分布は対称ではない。平均値は2.615であり、中央値は2である。平均値は中央値よりも大きな値になっている。それは11という大きな外れ値に影響されているからである。
<中央値と平均値の違い>
中央値は順序情報だけを使っている。その意味で確かにデータの真ん中に位置している。平均値と比較すると、極端に大きな(小さな)少数個の値(これを外れ値という)が存在する場合、平均値は外れ値に影響されるが、中央値は影響されない。
外れ値は存在していなくても、極端に正規分布から偏っている場合、平均値は偏り(非正規性)に影響を受けるが、中央値は影響を受けない。自然現象のデータは正規分布に近い場合が多い。たとえば身長の分布である。社会現象のデータは偏りが大きい場合が多い。たとえば国民全体の所得額、上場企業の売上高など。
<中央値の数理的な性質>
中央値は下式のTを最小化するtとして定義される。
tの値として、データ中に存在し得るすべての値のうちt = medianの時にTは最小となる。以下のデータを使って、tにいろいろな値を代入してみた時のTを計算してみる。
[データ]=( 1, 2, 3, 4, 5 )
グラフは横軸にtのさまざまな値、縦軸に対応するTの値をとってプロットした結果である。確かに,データの中央値(t = 3)の時に,T= 6となって最小になっていることが分かる。
データの件数が偶数の場合の中央値も確認しておこう.
[データ] = (1, 2, 6, 7, 9, 10)
データは偶数(6)なので中央値は(6, 7)と2個存在する。どちらの中央値であっても、さらにいえば6と7の中間にあるどの値であっても、同じ最小値を与える。データ数が偶数個の場合の中央値は「2個の中央値の中間値とする」ことになっているが、便宜的な合意事項である。
平均値はデータ数が偶数であっても一意に定まる。平均値は(5.83)であって、それ以外のどの値でもない。