home
about
全ての投稿
ソフトウェア・ハードウェアの設定のまとめ
分析関連のまとめ
ヘルスケア関連のまとめ
生涯学習関連のまとめ

主成分分析(pca)

date: 2019-11-01 excerpt: 主成分分析(pca)について

tag: statistics pca 主成分分析

主成分分析(pca)について

次元圧縮法の一つ
導出が２つあって、最適化で行う方法と標本分散共分散行列の固有ベクトルを求める方法がある

最適化で求める

あるデータ\(P\)があったとき、その一つを\(p_j\)として取り出した時、次のような\(w\)での変換を考える

\[p_j = w_1p_{1j} + w_2p_{2j} + ... + w_kp_{kj}\]

これをすべてのデータに適応し、平均からの乖離を計算する\(f(w)\)を考える

\[f(w) = \frac{1}{n} \{ (p_1 - \bar{p})^2 + (p_2 - \bar{p})^2 + ...+ (p_n - \bar{p})^2 \}\]

これを最大化するような\(w\)を計算する

\(w\)が主成分分析の結果である

固有ベクトルを求める方法で求める

標本分散共分行列Sの計算

columnをカテゴリ、rowをサンプルとするとある(i, j)の一部の標本分散共分散は以下の通り

\[s_{j,j} = \frac{1}{n-1} \sum_{i=1}^{n} (x_{i,j} - \overline{x_{\cdot j}}) ^ 2\] \[s_{j,k} = \frac{1}{n-1} \sum_{i=1}^{n} (x_{i,j} - \overline{x_{\cdot j}}) (x_{i,k} - \overline{x_{\cdot k}})\]

相関行列Rの計算

標本分散を用いて計算することができる

\[r_{i,j } = \frac{s_{j,k}}{ \sqrt{s_{j,j} s_{k,k}}}\]

固有値λの計算

\(\lambda\)は固有値である

\[\det(S - \lambda I) = 0\]

を満たす\(\lambda\)

固有ベクトルU

\(W\)は固有ベクトルである
\(S\)は分散共分散行列

\[S W = \lambda W\]

寄与率の計算

\[C_k = \frac{\lambda_k}{\sum_{i=1}^{m} \lambda_i}\]

主成分分析負荷量(相関)の計算

\[r_{y_j,x_k} = \frac{Cov\left[x_k, y_j \right]}{ \sqrt{ V\left[y_j \right] s_{k,k} } } = \frac{\sqrt{\lambda_j} u_{k,j}}{ \sqrt{s_{k,k}} }\]

参考

主成分分析