多段抽出
多段抽出は標本の抽出段階が複数ある無作為抽出の手順である。二段抽出、三段抽出が多い。個人や世帯を調査対象者とする全国規模の調査員訪問調査では、多段抽出がよく利用される。一段目の抽出単位を第一次抽出単位(primary sampling unit; PSU),二段目を第二次抽出単位(secondary sampling unit; SSU),三段目を第三次抽出単位(tertiary sampling unit; TSU)という
<多段抽出の実例>
- OECD国際成人力調査(PIAAC)の日本調査(2011年)は全国の成人を調査対象者として、二段抽出が適用された。
PSUを町丁字とし、SSUを個人とした。 - 総務省の家計調査は三段抽出である。PSUを市町村とし、SSUを国勢調査区、TSUを世帯としている。
- 日本経済新聞社の世論調査は、PSUが世帯(固定電話番号)で、SSUが世帯内の有権者個人とする二段抽出である。
<なぜ多段抽出をするのか>
調査員による訪問調査の場合は、実査を効率的に実施するためである。PIAACと同じく二段抽出を採用している「日本人の国民性調査」(統計数理研究所)では、PSUとして町丁字を400地点、SSUとして個人を各地点で平均16人を抽出する。もし一段抽出で実施すれば調査対象者の約6400人が全国に散らばる。母集団が約1億人とすると、およそ1万5000人おきに散在するので、訪問調査員は6400人そろえるか、交通費を用意して調査員に複数の地点を担当してもらうことになるだろう。二段抽出で400地点にすれば調査員は400人以下となり、効率的に調査できる。
もちろん世帯や個人が対象の調査でも一段抽出の実例はある。ビデオリサーチの視聴率調査は、関東で900世帯を対象とし一段系統抽出である。世帯と世帯の間隔は約2000ということになる。
電話世論調査の場合は効率性が理由ではなく、不可避的に二段抽出となる事例である。電話調査なので調査員が全国を歩くわけではない。世論調査は有権者個人を抽出したいのであるが、固定電話が世帯と結びついているため、仕方なく世帯を抽出し、次に世帯内の個人を単純無作為抽出するのである。
<多段抽出の欠点>
多段抽出は調査の効率的実施を目的として利用されることが多いのだが、実施上の効率性と引き換えに、理論的な側面では標準誤差が大きくなるという欠点がある。直感的にも、第一段で抽出されなかった地点のSSUは、決して調査の対象にならないことを考えると、誤差を大きくする方に関連することが想像できるだろう。標準誤差の計算方法は標本設計によっても異なり、実際には単純無作為抽出の場合の公式が使われることが多い。
<多段抽出と抽出確率>
多段抽出の場合でも、無作為抽出であるために、最終段階での母集団の要素の抽出確率は等しくなるように設計する。
PIAACではPSUが地点、SSUが個人であった。このような場合、PSUである地点の抽出方法として、主に二通り考えることができる。等確率抽出と確率比例抽出である。PIAACでは確率比例抽出を適用した。
・確率比例抽出
地点をその大きさ(調査対象者の人数)に比例して抽出する。個人は地点内で一定数を抽出する。大きい地点ほど抽出確率が高い。個人については、大きい地点の個人ほど抽出確率が小さい。簡単な数値例が理解しやすい。
人口N = 2万人の地域には5地点(町丁字)あり。各地点でa = 10人を抽出して、合計 n = 50人の標本抽出をする設計とする。一段目の抽出確率と二段目の抽出確率の積は、どの地点の個人でも等しく ai / N = 10 / 20000 = 0.0005 となることがわかる。
・等確率抽出
地点の大きさを考慮せずに、等しい確率で地点抽出する方法もある。この場合、抽出された地点においては、大きい地点で多くの個人を抽出することで、第一段と第二段を通して等確率になるように設計する。上述の確率比例抽出とは逆になる。
調査員による訪問調査では、地点ごとに調査対象者数が異なると、管理は面倒になるので、確率比例抽出が採用されることが多いのである。
電話調査の二段抽出では、世帯の大きさを考慮せずに(大きさは電話するまで不明)世帯抽出する。そして世帯内の有権者個人は一人抽出するだけである。こうなると個人の抽出確率は等しくない。この問題を回避するためには、集計する際に世帯内の有権者人数で重み調整するしかない。実際には、世帯内の有権者人数だけでなく、世帯の契約している固定電話の数も、抽出確率に関係する。そこで電話の数と世帯内有権者数の数で重みをつけた集計がされている。