1. 主成分分析

まずは主成分分析をしてみる。次のcolaboratryを参照してほしい。

https://colab.research.google.com/drive/1Te2yuuMpqYy_UkQxinWAAZ-kxtcPVZpL?usp=sharing

ワインのデータから、 'Color intensity', 'Flavanoids', 'Alcohol', 'Proline'のデータについて、scikit-learnのPCAモジュールを用いて主成分分析を行っている。

なお、主成分分析とデータについては主成分分析を Python で理解するを参照した。

colaboratryの1章で、主成分分析をしてbiplotを実行している。

f:id:SolKul:20210505103729p:plain — wineデータの4変数についてのbiplot

また、各変数の相関係数は次のようになった。

	Color intensity	Flavanoids	Alcohol	Proline
Color intensity	1.000000	-0.172379	0.546364	0.316100
Flavanoids	-0.172379	1.000000	0.236815	0.494193
Alcohol	0.546364	0.236815	1.000000	0.643720
Proline	0.316100	0.494193	0.643720	1.000000

このbiplot上の変数同士の角度と、相関係数にはなにか関係があるだろうか？例えば、角度が0度に近ければ相関が高く、90度近ければ相関が低いと言えるだろうか？

colaboratryの2章で相関係数とbiplotの角度の$\cos$についてプロットしてみている。

f:id:SolKul:20210505103814p:plain — 相関係数とbiplotの角度の$\cos$の関係

線形な関係がありそうである。

相関係数、主成分分析、どちらも基本的な線形代数の手法を用いて導くことができる。この関係について調査する。

2. 分散共分散行列と相関行列の関係

データ数$n$の2種類のデータ$x,y$をどちらも平均$0$、不偏分散を$1$に標準化しておく相関係数$r _ {xy}$は次のように変形できる。

\begin{aligned}r_{xy}&=\frac{\Sigma(x-\bar{x})(y-\bar{y})}{\sqrt{\Sigma(x-\bar{x})^2}\sqrt{\Sigma(y-\bar{y})^2}}\\&=\frac{\Sigma(x-\bar{x})(y-\bar{y})}{n-1}\left/\left[\sqrt{\frac{\Sigma(x-\bar{x})^2}{n-1}}\sqrt{\frac{\Sigma(y-\bar{y})^2}{n-1}}\right]\right.\\&=s_{xy}\end{aligned}

となる。ただし$s _ {xy}$は不偏共分散で、次のように計算する。

s_{xy}=\frac{\Sigma(x-\bar{x})(y-\bar{y})}{n-1}

また、データを標準化しているので、

\sqrt{\frac{\Sigma(x-\bar{x})^2}{n-1}}\sqrt{\frac{\Sigma(y-\bar{y})^2}{n-1}}=1

となることを用いた。

よって、標準化された、$m$種類のデータについて$n$個観測した、$n$行$m$列のデータ$X$を次のように計算した不偏分散共分散行列は相関係数行列と等しくなる。

\Sigma = \frac{X^T X}{n - 1}

3. 主成分分析と固有値分解

主成分分析は分散共分散行列を固有値分解することでできる。主成分分析について詳しくは↓の資料、もしくは他の書籍などを参照。

浅野晃の講義 − 応用統計学（2010年度前期）

\begin{aligned}\Sigma &= V_{pca} L V^T_{pca}\\V_{pca} &= \left( \begin{array}{cccc}\pmb{v}_1 & \pmb{v}_2 & \cdots & \pmb{v}_m\end{array} \right)\\&=\left( \begin{array}{c}\pmb{u}_1^T \\\pmb{u}_2^T \\\vdots \\ \pmb{u}_m^T\end{array} \right)\\L &= \left( \begin{array}{cccc}\lambda_1 & 0 & 0 & \cdots & 0\\0 & \lambda_2 & 0 & \cdots & 0\\\vdots & & \ddots & & \vdots\\\\0 & 0 & & \cdots & \lambda_m\end{array} \right)\end{aligned}

この時、固有値は大きい順に並び替えてあるものとする。そして、元のデータを主成分に変換したい場合は$XV _ {pca}$を計算する。

4. 寄与度プロット(biplot)の角度と相関係数

PCAでは、第一主成分と第二主成分における観測変数の寄与度をプロットするbiplotによって、データ全体の傾向を掴もうとすることがよく行われる。そのときの寄与度プロットでの$i$列目と$j$列目の観測変数の矢印同士の角度を$\theta _ {ij}$とすると、その余弦$\cos{\theta _ {ij}}$はベクトル$\pmb{u} _ i$と$\pmb{u} _ j$の第1成分、第2成分を成分としたベクトル$\pmb{u}' _ i$、$\pmb{u}' _ j$の内積を$\|\pmb{u}' _ i\|\|\pmb{u}' _ j\|$で割ったものとなる。つまり、

\begin{aligned}\cos{\theta_{ij}}&=\frac{\pmb{u}'_i\cdot\pmb{u}'_j}{\|\pmb{u}'_i\|\|\pmb{u}'_j\|}\\&=\frac{u_{i1}u_{j1}+u_{i2}u_{j2}}{\sqrt{(u_{i1}^2+u_{j1}^2)(u_{i2}^2+u_{j2}^2)}}\end{aligned}

一方、$i$列目と$j$列目の変数の相関係数は

\begin{aligned}r_{ij}&=\pmb{u}_i^TL\pmb{u}_j\\&=(u_{i1},u_{i2},\cdots)\left( \begin{array}{cccc}\lambda_1 & 0 & 0 & \cdots & 0\\0 & \lambda_2 & 0 & \cdots & 0\\\vdots & & \ddots & & \vdots\\\\0 & 0 & & \cdots & \lambda_m\end{array} \right)(u_{j1},u_{j2},\cdots)^T\\&=\lambda_1u_{i1}u_{j1}+\lambda_2u_{i2}u_{j2}+\cdots\end{aligned}

である。この2つは等しくない。しかし、もし仮にPC1とPC2の2つの分散がすべての分散のかなりの割合を占めていて、PC3以降の分散が無視できる場合、

\begin{aligned}r_{ij}&\approx\lambda_1u_{i1}u_{j1}+\lambda_2u_{i2}u_{j2}\\&=(\sqrt{\lambda_1}u_{i1},\sqrt{\lambda_2}u_{i2})\cdot(\sqrt{\lambda_1}u_{j1},\sqrt{\lambda_2}u_{j2})^T\\&=\pmb{u}''_i\cdot\pmb{u}''_j\\&=\|\pmb{u}''_i\|\|\pmb{u}''_j\|\cos{\theta'_{ij}}\end{aligned}

となる。PC1とPC2における観測変数の寄与度にそれぞれPC1とPC2の標準偏差をかけた座標でプロットした時、つまり$(\sqrt{\lambda _ 1}u _ {i1},\sqrt{\lambda _ 2}u _ {i2})$、$(\sqrt{\lambda _ 1}u _ {j1},\sqrt{\lambda _ 2}u _ {j2})$などとプロットした時の角度$\theta'$について考える。このプロットの方法を修正biplotと呼ぶことにする。このとき、修正biplotのベクトルの長さ$\|\pmb{u}''\|$がどれもほぼ同じ$(\approx l)$であれば、

r_{ij}\approx l^2\cos{\theta'_{ij}}

となり、$\cos{\theta' _ {ij}}$は相関係数$r _ {ij}$と比例する。また、ベクトルの長さが一定以上あり、$\cos{\theta' _ {ij}}$が0であれば、つまりベクトル同士が90度であれば、相関は0といっていい。

5. 具体例

5.1 ワインデータ

先程のワインの例をもう1度見てみよう。

https://colab.research.google.com/drive/1Te2yuuMpqYy_UkQxinWAAZ-kxtcPVZpL?usp=sharing

colaboratryの3章で固有値、固有ベクトル、そして分散の割合を確認している。

固有値(=分散)$\lambda _ i$は次のようになっていた。

	固有値(分散)
PC1	2.134122
PC2	1.238082
PC3	0.339148
PC4	0.288648

そして固有ベクトル$V _ {pca}$、pca.components_.Tは次のようになっていた。

	PC1	PC2	PC3	PC4
Color intensity	0.409416	0.633932	0.636547	-0.159113
Flavanoids	0.325547	-0.725357	0.566896	0.215651
Alcohol	0.605601	0.168286	-0.388715	0.673667
Proline	0.599704	-0.208967	-0.349768	-0.688731

この表の１行それぞれが$\pmb{u}$ベクトルである。

分散の割合は次のようになっていた。

	割合
PC1	0.533531
PC2	0.309520
PC3	0.084787
PC4	0.072162

PC1とPC2の分散が全体の約84%の分散を占めている。

また、修正biplotでのベクトルのnormは次のようになっていた

	修正biplotでのベクトルの長さ
Color intensity	0.924809
Flavanoids	0.936794
Alcohol	0.904300
Proline	0.906416

ベクトルの長さがだいたい同じである。よって、修正biplotの方法でプロットすれば、角度の$\cos$が相関係数が多少比例するはずである。

colaboratryの5章で通常のbiplotと修正biplotを比較している。

f:id:SolKul:20210505103948p:plain

PC1の分散がPC2より大きい分、修正biplotでは通常のbiplotに比べて横に引き伸ばされている。

そしてcolaboratryの6章で相関係数と通常のbiplotと修正biplotそれぞれでの角度の$\cos$をプロットしている。修正biplotでは相関係数と$\cos$がほぼ比例していることがわかる。

f:id:SolKul:20210505104016p:plain

5.2 すべてのワインデータ

colaboratryのAppendix 2章でワインデータについて13ある全ての観測変数でPCAを行っている。修正biplotは次のようになった。

f:id:SolKul:20210505104037p:plain

相関係数と$\cos$の比較は次のようになった。

f:id:SolKul:20210505104043p:plain

このときPC1とPC2の分散が全体の約56%の分散を占めてた。

つまりこの場合、PC1とPC2の分散が全体の大部分を占めていて、修正biplotのベクトルの長さがだいたい同じであるので相関係数と修正biplotの角度の$\cos$がだいたい比例している。

5.3 ランダムなデータ

colaboratryのAppendix 3章で観測変数が10あるランダムなデータを生成してPCAを行っている。1変数目、2変数目、3変数目同士、そして4変数目、5変数目、6変数目同士の相関が高くなるようにした。それ以外の相関は低く設定してある。修正biplotは次のようになった。

f:id:SolKul:20210505104054p:plain

相関係数と$\cos$の比較は次のようになった。

f:id:SolKul:20210505104105p:plain

このときPC1とPC2の分散が全体の約49%の分散を占めてた。

つまりこの場合は、PC1とPC2の分散が全体の大部分を占めてはいるが、修正biplotのベクトルの長さがばらばらなので相関係数と修正biplotの角度の$\cos$は比例しない。

6.結論

PC1とPC2の分散が全体の大部分を占めていて、修正biplotのベクトルの長さがだいたい同じである場合、相関係数と修正biplotの角度の$cos$はほぼ比例する。
PC1とPC2の分散が全体の大部分を占めていて、修正biplotのベクトルの長さが少しでもあり、ベクトル同士の角度が90度に近いものは相関は小さい。