標本誤差
標本誤差とは母集団のすべてを調査しないで、一部の標本を無作為抽出して調査した結果にともなう誤差である。つまり全数調査には存在せず、標本調査の持つ誤差である。英語ではsampling errorというので、「標本抽出にともなう誤差」という感覚もあるが、「標本抽出の作業手順を間違えたエラー」という意味ではない。
調査にともなう誤差の全体のうち、標本誤差は一部である。標本誤差以外のすべての誤差を非標本誤差という。全数調査には標本誤差はないが、非標本誤差はあり得る。全数調査が巨大な調査であれば、非標本誤差も非常に大きな影響をもたらすこともあり、逆に、適切な大きさの標本調査をよく管理して非標本誤差を小さくできる場合もあるので、常に全数調査が標本調査より優れているというわけではない。
標本誤差は統計的推測の枠組みで理論的に計算・評価することができる。しかし、非標本誤差を算出することは困難である。標本誤差と非標本誤差のどちらが大きいかという比較さえ難しい。非標本誤差は多種多様なすべての誤差であるが、主な非標本誤差としては以下のような種類がある。
1.回収率が100%ではないことで、偏った性質の集団だけが回収されたことによる誤差。
2.回収されても調査項目が無回答であったことによる誤差。
3.質問文を回答者が誤解したり、意図的にウソの回答をしたり、無意識に誤った回答をしたりする、回答者に依存する誤差。
4.標本抽出の手順を誤ったために、正しく計画標本を無作為抽出できなかったことによる誤差。
5.回収データの入力、集計、データ変換の段階での処理の誤りがもたらす誤差。
6.調査員調査の場合に、調査員が回答者に誤った説明をしたために、測定刺激の相違が生じて発生した誤差。
7.目標母集団と枠母集団の乖離に関する誤差。標本誤差は枠母集団に向かっての推測をしているのだが、本来の目的は目標母集団にある。
標本誤差は母集団の真の値(母数)と、標本調査で得た標本統計量、つまり母数の推定値であるとの差異である。
たとえば、母平均が3で、標本平均が2であれば、その差異である1が標本誤差である。
一般に、母平均は未知なので、標本誤差もまた未知である。標本平均 m だけが既知の値である。しかし統計的推測の理論は、標本分布を通して標本誤差の大きさを評価することができる。たとえば大標本における標本平均であれば正規分布を仮定することが可能であり、信頼係数95%の信頼区間の幅として、標準誤差の1.96倍を見積もることができる。
ところで、標本誤差という用語に関連して、参考書などでも混乱している記述があるのだが、標準誤差(se: standard error)と標本誤差を混同しないように区別するように注意されたい。英語も日本語も似ている。平均値や比率などの標本統計量の標準誤差は下式である。上は母分散が既知の場合、下は未知の場合。
標準誤差は標準偏差を標本サイズの平方根で除した結果だが、標準偏差と標準誤差も似ている言葉なので混同せずに区別しよう。標準偏差 s は下式である。
標本誤差、標準誤差、標準偏差――は似ていて混乱しやすい。名称だけでなく、標準誤差の式の中に、標準偏差が出てくる。標本の観測値は標準偏差というが、標本統計量の標準偏差は標準誤差というのである。これらが区別できるということは、そのまま標本誤差とは何か、ということを理論的にも理解しているということに対応する。