相関係数
相関係数とは2変数間の「関係の強さ」を表現する指標である。たとえばブランド戦略サーベイの上位企業の営業利益と時価総額の散布図を描くと、以下のように関係があり、相関係数を計算すると「0.95」である。
営業利益が高いほど、時価総額も大きいという関係がある。しかし営業利益を高めると、時価総額が増える、というような因果関係の表明は相関係数から「だけでは」断言できない。別の知見が因果関係の表明には必要である。因果の方向は逆かも知れない。第三の変数の影響を受けた見かけの相関関係かも知れない。しかし相関関係は因果関係の示唆は、与えてくれる。
第二次安倍内閣(2012年12月~2016年9月)における、日本経済新聞社の世論調査では、自民党支持率と無党派(支持政党無し)の散布図は以下のとおりで、相関係数を計算すると「-0.85」である。このような右肩下がりの関係では相関係数は負になり、逆相関ということもある。
この図にはないが、民主・民進党の支持率は10%前後で変化していない。無党派層は固い政党支持を持っているわけではなく、時には自民支持となり、また別の時には支持無しに戻るというスイングをしていることが分かる。この動きと民主・民進党は無関係である。
相関係数(r)は2変数間の関係の強さであるが、もう少し厳密には「直線的な関係」を表現するものである。すなわち曲線的な関係、たとえば完全な2次曲線関係(下図D)にあっても相関係数を計算すると正確に0になってしまう。座標上の散布図を描いて、4象限に均等にデータが分布する場合(下図C)も、相関係数は0になる。逆に直線上のすべてのデータが存在する場合(下図AとB)には、相関係数は1または-1になる。
2変数の場合は分布を散布図として描けるので、線形関係にあるかどうか視察によって確認することが重要で数値としての相関係数だけを盲信してはいけない。教訓的な事例をAnscombe(1973)が示している。以下の4つのデータの相関係数はすべて同じ値(0.82)であるが、一見してまったく異なるデータであることが明白である。
最初の例に問題はない。このような分布に相関係数を適用することは適切である。
二番目は曲線関係である。2変数は「完全な関係」があるが、相関係数では表現できない。
三番目は「外れ値」の問題であり、相関係数はその影響を強く受けることに注意が必要である。このたった1つの「外れ値」を除去すると、相関係数は1となる。これは極端な事例であるが、実際の調査データにおいて類似した状況はある。このような場合、「外れ値」の素性を調べる必要がある。間違いであれば除去する。間違いではないが、異質のデータが混在しているのなら、相関係数の計算だけでなく、一連のデータ分析は層別に実施すべきであることを示唆する場合がある。
四番目も「外れ値」の例であるが、今度は外れ値を除去すれば相関係数は0になる例である。このようなケースは間違ったデータの混入が多いが、いずれにせよ調べる必要がある。
相関係数の性質をまとめると以下の通りである。
- 値は(-1~+1)の範囲をとり、測定の尺度に依存しない。相関係数を関係の「強さ」だとすれば、共分散は関係の「大きさ」だといえる。
- 完全な正の相関の時、+1の値となり、完全な負の相関の時に-1の値となり、完全な無相関の時に0の値となる。
- 相関とは二変量間の直線的(線形)関係の強さの指標であり、曲線的(非線形)関係を考慮していない。
- 共分散と同様に外れ値の影響を受けやすい(外れ値に敏感,外れ値に対して頑健でない)。
なお、相関係数には多くの種類があり、これまで説明してきた相関係数は「ピアソンの積率相関係数」という。
この他には、順序尺度の相関としていくつか順位相関係数がある。2変数ともに質的変数である場合には連関係数ということが多く、クラメールの連関係数などがある。
量的変数と質的変数の相関としては相関比が提案されている。
相関係数の数式は、いくつかの表現ができる。ピアソンの積率相関係数の公式としては、元の変数を使って、以下のように表現することが多い。
これは日本語で書けば、以下のように書ける。
積和や平方和を記号にすると、すっきり見えることもあるが、内容は同じである。
これも同じことだが、標準偏差と共分散を使った表現もできる。
下のデータではなく、標準化されたデータから表現すると、相関係数とは単に2変数の積和の平均値である、ということになる。
数式について、いくつかの公式で示したが、実際には手計算することはないので、定義と考え方を理解していればよい。むしろ誤解せずに利用するために、相関係数の性質を知っていることが重要である。数式の表現は、その性質を理解するために、さまざまな角度から相関係数をみているに過ぎない。
データ解析の中で相関係数は重要な統計量なので、実際のデータを使って電卓で計算してみることも理解を助けることになる。高度なデータ解析手法、あるいはビッグデータ解析などは電卓では不可能であるが、それらの根本にある相関係数であれば、電卓があれば逐一計算して確認することもできる。