Glossary

調査・統計用語集

中央値

中央値(median)とは、データを大きい順に並べた時の中央の値。中位数ともいう。データの件数が偶数の場合は、中央の2つの値の平均値を中央値とする。
 
 中央値と平均値は分布が対象の時に一致するが、一般に一致しない。「真ん中の代表的な値」という直観的なイメージは中央値の方が適している場合がある。それは分布が偏っている場合である。
 下図は対称な分布である。平均値は6であり、中央値も6である。値は一致する。
 


 下図の分布は対称ではない。平均値は2.615であり、中央値は2である。平均値は中央値よりも大きな値になっている。それは11という大きな外れ値に影響されているからである。
 


<中央値と平均値の違い>
 中央値は順序情報だけを使っている。その意味で確かにデータの真ん中に位置している。平均値と比較すると、極端に大きな(小さな)少数個の値(これを外れ値という)が存在する場合、平均値は外れ値に影響されるが、中央値は影響されない。
 外れ値は存在していなくても、極端に正規分布から偏っている場合、平均値は偏り(非正規性)に影響を受けるが、中央値は影響を受けない。自然現象のデータは正規分布に近い場合が多い。たとえば身長の分布である。社会現象のデータは偏りが大きい場合が多い。たとえば国民全体の所得額、上場企業の売上高など。


<中央値の数理的な性質>
 中央値は下式のTを最小化するtとして定義される。

 tの値として、データ中に存在し得るすべての値のうちt = medianの時にTは最小となる。以下のデータを使って、tにいろいろな値を代入してみた時のTを計算してみる。
 [データ]=( 1, 2, 3, 4, 5 )
グラフは横軸にtのさまざまな値、縦軸に対応するTの値をとってプロットした結果である。確かに,データの中央値(t = 3)の時に,T= 6となって最小になっていることが分かる。
 


データの件数が偶数の場合の中央値も確認しておこう.
 [データ] = (1, 2, 6, 7, 9, 10)
 


 データは偶数(6)なので中央値は(6, 7)と2個存在する。どちらの中央値であっても、さらにいえば6と7の中間にあるどの値であっても、同じ最小値を与える。データ数が偶数個の場合の中央値は「2個の中央値の中間値とする」ことになっているが、便宜的な合意事項である。
 平均値はデータ数が偶数であっても一意に定まる。平均値は(5.83)であって、それ以外のどの値でもない。

ico_information

課題からお役立ち情報を探す

調査・データ分析に役立つ資料を
ご覧いただけます。

ico_contact

調査の相談・お問い合わせ

調査手法の内容や、
調査・データ分析のお悩みまで気軽に
お問い合わせください。

ico_mail_black

メルマガ登録

企業のリサーチ、データ分析に役立つ情報を
お届けします。