多変量解析
調査データの統計的データ解析析手法の総称であり、特定の分析方法を指すわけではない。多数の変量を同時に解析する手法という意味である。英語ではmultivariate analysisだが、類似の用語として「多変数解析」(multivariable calculus)がある。こちらは数学における解析学の分野である。ちなみに、映画「ビューティフル・マインド」(2001)の吹替版で「多変量解析」と訳されている場面が出てくるが、多変数解析の間違いである[i]。
多変量解析があれば当然、1変量解析、2変量解析もある。調査では多く項目を質問するため、多変量解析を利用することが多いが、いきなり多変量解析を実行することは賢明ではなく、まず1変量解析を実施し、次に2変量解析へと進み、データ構造を理解したうえで多変量解析に進む。ビッグデータ解析でも単純な段階から始めて、次第に複雑な構造の解明へと進むことが原則である。
解析という言葉から数値データの計算方法をイメージする人が多いが、実際のデータ解析は数値計算だけでなく、データの図的表示・グラフィカル表現を同時に実施することで、データに対する理解を促進する。左右の脳機能が相補的であるように、データに対して論理と直感で臨むのである[ii]。論理的には要約統計量の計算による評価・解釈。直感的には図的表現による視察で探索・発見を進める。
<1変量解析・単変量解析>
要約統計量とはデータを代表する各種の値で、位置・変動・分布の指標がある。図的表現としては、ヒストグラム・幹葉図・箱ひげ図など。
・位置の指標:平均値、中央値、最頻値、最大値、最小値
・変動の指標:分散・平方和・標準偏差・変動係数、レンジ、四分位数、パーセンタイル
・分布の指標:歪度・尖度
<2変量解析>
要約統計量としては各種の相関係数(積率相関係数、順位相関係数)、質的変数のための各種の連関尺度、量的変数と質的変数との関連性を示す相関比など。
図的表現としては、二次元・三次元の散布図が主要な手段だが、質的変数の場合はクロス集計表を面積表現・温度表現・色彩表現するなどの工夫がある。
<多変量解析>
複数の変数という意味では2変量解析を多変量解析に含める場合もある。一般に変数が2個以上の場合を多変量解析といい、目的やアルゴリズムによって各種の手法がある。図的表現としては3次元空間の図示が限界である。4次元以上は可視化できないので、多変量解析によって3次元以下にした結果を散布図などで表現する。また、方程式を図的表現する工夫としてパス図が便利である。
<目的と手法>
多変量解析の目的は要約と予測に大別できる。要約とは単純化による理解の容易化である。消費行動・心理、利用実態、市場分析などは複雑な分析対象なので調査項目(変数)は非常に多くなる。しかし、関連する多数の項目をそのまま眺めていては全体構造を把握しにくいので多変量解析による要約をする。
たとえば調査で30項目にわたり消費者のライフスタイルを質問したデータがあるが、これらは互いに相関があり、3次元以下に情報を要約できれば、分かりやすいレポートをすることができる。変量はデータの次元でもあるので、この要約を多次元から低次元への「次元縮小」ともいう。要約は分類を最終目的とすることもある。次元縮小を直感的に説明すると「できるだけ少ない情報損失を許容しつつ、本質的に重要な構造を取り出すこと。情報損失はできるだけ誤差であることが望ましく、重要な情報が残っていないようにモデル化する」ということである。
もうひとつの目的は予測である。目的変数が存在して、多数の説明変数を使って性能のよい予測モデルを作成することである。予測はマーケティング分野に限らず非常にニーズが多い。販売予測、購買行動予測、選挙予測など、調査分析の目的は未来の予測によってリスクの少ない意思決定することである。
なお、予測にはしばしば要因分析が伴っている。単に予測できればよい、という場合もあるが、その予測に寄与する変数を探すこと、また寄与の大小から重要な予測変数を知ることで、行動計画を策定することができる。売上を5%増やすためには、何を、どの程度、実施・実現すれば予測値を目標値に達成させられるかを知りたい場面は多い。
以下に各種の手法を列挙するが、具体的な分析例はそれぞれの用語ページを参照されたい。
<予測のための手法>
・回帰分析(単回帰分析、重回帰分析、数量化1類)
・判別分析(数量化2類)
・分散分析
・コンジョイント分析
・ロジスティック(回帰・判別)分析
・パス解析
・グラフィカルモデリング(GM)
・マルチレベルモデル
・ベイジアンネットワーク
<どのような場面で使うのか>
- 回帰分析: 顧客満足度調査において、総合満足を個別満足から予測する。誰が選挙で当選するのか予測する。
非常に多くの場面で利用される。数量化1類も同じ数理モデルであるが、質的変数を扱う。 - 判別分析: 購入者と非購入者を区別している背景として、ライフスタイルで説明する。
- 分散分析: 広告AとBは、どちらが高い評価されているのか検証する。
ABテストと呼ばれることもある手法は分散分析の一種である。 - コンジョイント分析: 製品の総合評価は、製品のどの属性が寄与しているかを実証するために実験(調査)を実行する。
数理的には分散分析と同じ。
<要約(分類)のための手法>
・主成分分析
・因子分析(探索的因子分析・検証的因子分析)
・コレスポンデンス分析(数量化3類・双対尺度法)
・多次元尺度構成法(MDS)、数量化4類
・クラスター分析
<どのような場面で使うのか>
- 因子分析: 企業イメージ調査において、多数のイメージ項目を2~3の因子に要約する。主成分分析も同じ目的で使う。
- コレスポンデンス分析: ブランドと、それに対する評価を集計した表から、ブランドと評価点のポジショニングをする。MDSも同じ目的で使うが、調査方法(質問と回答の方法)が異なり、一対比較をしたデータからポジショニングをする。
- クラスター分析: 消費者をライフスタイルでいくつかのグループに分類する。いわゆる市場セグメンテーションで使う。
<予測と要約のための手法>
・共分散構造分析(構造方程式モデリング:SEM)
・ニューラルネットワーク(NN)
<どのような場面で使うのか>
- SEM:日本経済新聞社の総合企業評価モデル(ランキング)のPRISMは、SEMで分析された結果である。日本版顧客満足度指数(JCSI)は顧客満足度調査を全業種で実施し、その結果をSEMで分析している。
- NN:POSデータを使って、牛乳の明日の販売量を予測する場合に、天候・曜日など非常に多数の変数を盛り込んでこれは重回帰分析・数量化1類と同じ利用場面であるが、NNはデータの型は質的でも量的でもかまわないし、線形・非線形を所与とせずにモデリングする。データマイニングが流行した時代にもNNがよく利用された。
予測と要約の境界は曖昧になる場合もあり、複数の手法を組み合わせる場合もある。「予測と要約」の手法としたSEMは因子分析と回帰分析を下位モデルに含んだ分析手法で、この分類法では説明しきれない。ニューラルネットワークもモデル名でもあり、アルゴリズムでもあり、予測・要約の両方で利用されるモデルが含まれる総称である。SEMが「線形」多変量解析であるでも対し、NNは「非線形」多変量解析であるとの位置づけもできる。ビッグデータ解析で利用される機械学習あるいはディープラーニングや人工知能(AI)という用語も、内部でNNが使われている場合が多い。多変量解析は統計学の分野の用語であり、AIや機械学習などをはじめ、同じ手法が異なる名称で呼ばれている分野もある。
多変量解析のテキストでは、しばしば外的基準(目的変数)の有無で多変量解析の手法を分類している。この分類法は数理的な観点である。上記では利用目的から分類したので因子分析と主成分分析は要約(次元縮小)の手法として同類としているが、因子分析は外的基準「有」で、主成分分析は「無」である。また多くの手法は数学的には同じ場合さえある。たとえば主成分分析もコレスポンデンス分析もMDSも特異値分解であるし、回帰分析、分散分析、数量化1類などはすべて一般線形モデルである。モデル、目的、入力データの型・尺度水準、歴史的事情などで手法の名前が異なっている側面もある。