主成分分析的统计学视角

文章目录

主成分分析的统计学视角
PCA 的统计学视角
- 1. 寻找第一个主成分
- 2. 获取第二个主成分
- 3. 非零均值随机变量的主元
- 4. 零均值随机变量的样本主元
- 5. PCA 降维案例

主成分分析是将高维空间中的数据集拟合成一个低维子空间的方法，到目前为止它已成功应用于数学建模、数据压缩、数据可视化等领域。

主成分分析是将高维空间的数据集 $\{\boldsymbol{x}_i\in\mathbb{R}^D\vert i=1,2,\cdots,n\}$ 拟合到一个低维放射子空间 $S$ 中，且其维数 $d\ll D$ 。该问题可视为统计问题或者代数几何问题。

PCA 的统计学视角

多维随机变量 $\boldsymbol{x}\in \mathbb{R}^D$ 满足 $\mathbb{E}[\boldsymbol{x}]=\boldsymbol{0}$ ，可寻找 $d\;\;(\ll D)$ 个主元 $y_i\;\;(i=1,2,\cdots,d)$ ，使 $\boldsymbol{y}=[y_1,y_2,\cdots,y_d]^\top$ 可表示为 $\boldsymbol{x}$ 的 $d$ 个不线性相关的成分
$\boldsymbol{y}=\begin{bmatrix} y_1\\ y_2 \\ \vdots \\ y_d \end{bmatrix} =\begin{bmatrix} \boldsymbol{u}_1^\top\boldsymbol{x}\\ \boldsymbol{u}_2^\top\boldsymbol{x}\\ \vdots \\ \boldsymbol{u}_d^\top\boldsymbol{x}\\ \end{bmatrix} =\begin{bmatrix} \boldsymbol{u}_1^\top\\ \boldsymbol{u}_2^\top\\ \vdots \\ \boldsymbol{u}_d^\top\\ \end{bmatrix}\boldsymbol{x} =U^\top\boldsymbol{x}$
或
$y_i=\boldsymbol{u}_i^\top\boldsymbol{x},\qquad i=1,2,\cdots,d$
满足 $\boldsymbol{u}_i^\top\boldsymbol{u}_i=1,\;\;\boldsymbol{u}_i^\top\boldsymbol{u}_j=0$ 且 $\text{Var}[y_1]\geq \text{Var}[y_2]\geq\cdots\geq\text{Var}[y_d]$ ，其中， $y_1,y_2,\cdots,y_d$ 分别称为 $\boldsymbol{x}$ 的第1、第2、 $\cdots$ 、第 $d$ 个主成分.

1. 寻找第一个主成分

以第一主成分为例，我们试图寻找向量 $\boldsymbol{u}_1^*$ 使得
$\begin{align*} \max_{\boldsymbol{u}_1^*\in\mathbb{R}^D} \quad \text{Var}[\boldsymbol{u}_1^{\top}\boldsymbol{x}] \\ s.t. \quad\boldsymbol{u}_1^{\top}\boldsymbol{u}_1=1 \end{align*}$
定理：（随机变量的主成分）

对于随机变量 $\boldsymbol{x}\in\mathbb{R}^D$ 且满足 $\mathbb{E}[\boldsymbol{x}]=\boldsymbol{0}$ ，协方差矩阵为 $\Sigma_{\boldsymbol{x}}=\mathbb{E}[\boldsymbol{x}\boldsymbol{x}^\top]$ ，假设 $\text{rank}(\Sigma_{\boldsymbol{x}})\geq d$ ，则多维随机变量 $\boldsymbol{x}$ 的第 $i$ 个主成分 $y_i$ 可表示为
$y_i=\boldsymbol{u}_i^\top\boldsymbol{x}$
其中， $\{\boldsymbol{u}_i\}_{i=1}^d$ 是协方差矩阵 $\Sigma_{\boldsymbol{x}}$ 的第 $i$ 个最大特征值对应的特征向量（相互正交），且 $\boldsymbol\lambda_i=\text{Var}[\boldsymbol y_i]$ .

证明： 为简单起见，假定 $\Sigma_{\boldsymbol{x}}$ 无重复特征值。由 $\Sigma_{\boldsymbol{x}}\boldsymbol{u}_j=\lambda_j\boldsymbol{u}_j$ 或 $\boldsymbol{u}_j^\top\Sigma_{\boldsymbol{x}}=\lambda_j\boldsymbol{u}_j^\top$ 知
$\boldsymbol{u}_i^\top\underbrace{\Sigma_{\boldsymbol{x}}\boldsymbol{u}_j}=\lambda_j\boldsymbol{u}_i^\top\boldsymbol{u}_j\\ \underbrace{\boldsymbol{u}_i^\top\Sigma_{\boldsymbol{x}}}\boldsymbol{u}_j=\lambda_i\boldsymbol{u}_i^\top\boldsymbol{u}_j$
即 $(\boldsymbol\lambda_i-\boldsymbol\lambda_j)\boldsymbol{u}_i^\top\boldsymbol{u}_j=0$ ，又由于 $\boldsymbol\lambda_i\ne\boldsymbol\lambda_j$ ，可知 $\boldsymbol{u}_i^\top\boldsymbol{u}_j=0$

由于
$\begin{aligned} \operatorname{Var}\left[\boldsymbol y_{i}\right] &=\operatorname{Var}\left[\boldsymbol{u_{i}^{\top}} \boldsymbol x\right]=E\left[\left(u_{i}^{\top} x\right)^{2}\right] \\ &=E\left[\boldsymbol {u_{i}^{\top}} \boldsymbol x \boldsymbol{x^{\top}} \boldsymbol u_{i}\right]=\boldsymbol{u_{i}^{\top}} E\left[\boldsymbol x \boldsymbol{x^{\top}}\right] u_{i}=\boldsymbol u_{i} \Sigma_{x} \boldsymbol u_{i} \end{aligned}$
则优化问题 $\max \operatorname{Var}\left[\boldsymbol y_{1}\right]$ 可建模为
$\left\{\begin{array}{l} \max _{\boldsymbol{u}_1\in\mathbb{R}^D} \boldsymbol u_1^{\top} \Sigma_x \boldsymbol u_1 \\ \text { s.t. } \boldsymbol{u_1^{\top}} \boldsymbol u_1=1 \end{array}\right.$

构造拉格朗日函数，将约束优化化成无约束优化
$\mathcal{L}\left( \boldsymbol{u}_{1}\right)= \boldsymbol{u}_{1}^{\top} \ {\Sigma}_{\boldsymbol{x}} \boldsymbol{u}_{1}+\boldsymbol{\lambda}\left(1-\boldsymbol{{u}_{1}^{\top}} \boldsymbol{u}_{1}\right)$
偏导数值为零
$\frac{\partial \mathcal{L}\left(\boldsymbol{u}_{1}\right)}{\partial \boldsymbol{u}_{1}}=2 \ {\Sigma}_{x} \boldsymbol{u}_{1}-2 \boldsymbol{\lambda} \boldsymbol {u}_{1}=2\left(\ {\Sigma}_{x} \boldsymbol {u}_{1}-\boldsymbol\lambda \boldsymbol {u}_{1}\right)=0$
即
${\Sigma}_{x} \boldsymbol {u}_{1}=\boldsymbol \lambda \boldsymbol {u}_{1}$
可知 ${u}_{1}$ 是协方差矩阵 ${\sum}_{x}$ 的特征值 $\boldsymbol\lambda$ 对应的特征向量，最优值 $\boldsymbol{ {u}_{1}^{\top}} {\sum}_{x} \boldsymbol u_{1}=\boldsymbol\lambda \boldsymbol u_{1} \boldsymbol{u_{1}^{\top}}=\boldsymbol\lambda_{1}>0$ 。

2. 获取第二个主成分

第二个最优解 $\boldsymbol{u}_2$ 需要满足随机变量 $y_{1}=\boldsymbol{u_{1}^{\top}} \boldsymbol x$ 与随机变量 $y_{2}=\boldsymbol{u_{2}^{\top}} \boldsymbol x$ 不相关，即 $\boldsymbol {u}_{1} \perp \boldsymbol {u}_{2}$ . 由于 $\mathbb{E}[\boldsymbol x]=\boldsymbol 0$ ，则 $\mathbb{E}[y_i]=\mathbb{E}[\boldsymbol u^\top_i\boldsymbol x]=0$ . 两个随机变量的协方差可表示为
$\begin{array}{l} \operatorname{Cov}\left(y_{1}, y_{2}\right)=\operatorname{Cov}\left(\boldsymbol {{u}_{1}^{\top}} \boldsymbol x, \boldsymbol {u_{2}^{\top}}\boldsymbol x\right)=E\left[\left(\boldsymbol{u_{1}^{\top}} \boldsymbol x\right)\left(\boldsymbol{u_{2}^{\top}} \boldsymbol x\right)^{\top}\right] \\ =E\left[\boldsymbol {{u}_{1}^{\top}} \boldsymbol x \boldsymbol{x^{\top}} \boldsymbol {u}_{2}\right]=\boldsymbol {{u}_{1}^{\top}} \Sigma_{\boldsymbol x} \boldsymbol {u}_{2}=\boldsymbol\lambda_{1} \boldsymbol{u_{1}^{\top}} \boldsymbol u_{2}=0 \end{array}$
可知 $\boldsymbol {u_1^{\top}} \boldsymbol u_2=0$ ，

则优化模型为
$\begin{array}{l} \max_{\boldsymbol{u}_2 \in\mathbb R^{D}} \operatorname{Var}\left[y_{2}\right]=\boldsymbol {u}_{2}^{\top} \Sigma_{x} \boldsymbol u_{2}\\ \text { s.t. } \;\;\boldsymbol {{u}_{2}^{\top}} \boldsymbol {u}_{2}=1 \\ \qquad\;\;\boldsymbol {{u}_{1}^{\top}} \boldsymbol {u}_{2}=0 \end{array}$
构造拉格朗日函数
$\mathcal{L}\left(\boldsymbol {u}_{2}, \boldsymbol\lambda_2,\boldsymbol\gamma \right)=\boldsymbol {{u}_{2}^{\top}} {\Sigma}_x \boldsymbol {u}_{2}+\boldsymbol\lambda_{2}\left(1-\boldsymbol {{u}_{2}^{\top}} \boldsymbol {u}_{2}\right)+\boldsymbol\gamma \boldsymbol {{u}_{1}^{\top}} \boldsymbol {u}_{2}$
置偏导数为0，得
$\frac{\partial \mathcal{L}\left(\boldsymbol u_{2}, \boldsymbol\lambda_{2}, \boldsymbol\gamma\right)}{\partial \boldsymbol {u}_{2}}=2 {\Sigma}_{x} \boldsymbol {u}_{2}-2 \boldsymbol\lambda_{2} \boldsymbol {u}_{2}+\boldsymbol\gamma \boldsymbol {u}_{1}=\ {0} \tag{1}$

$\frac{\partial \mathcal{L}\left(\boldsymbol {u}_{2}, \boldsymbol\lambda_{2}, \boldsymbol\gamma\right)}{\partial \boldsymbol\lambda_{2}}=1-\boldsymbol {{u}_{2}^{\top}} \boldsymbol{u}_{2}=0$

$\frac{\partial \mathcal{L}\left(\boldsymbol {u}_{2}, \boldsymbol\lambda_{2}, \boldsymbol\gamma\right)}{\partial \boldsymbol\gamma}=\boldsymbol {{u}_{2}^{\top}} \boldsymbol{u}_{2}=0$

(1) 式两边同时左乘 $\boldsymbol{{u}_{1}^{\top}}$ 得
$\begin{array}{l} 2 \boldsymbol {{u}_{1}^{\top}} \Sigma_{x} \boldsymbol {u}_{2}-2 \boldsymbol\lambda_{2} \boldsymbol {{u}_{1}^{\top}} \boldsymbol {u}_{2}+\boldsymbol\gamma \boldsymbol {{u}_{1}^{\top}} \boldsymbol {u}_{1}=0 \\ 2 \boldsymbol\lambda_{1} \boldsymbol {{u}_{1}^{\top}} \boldsymbol {u}_{2}-2 \boldsymbol\lambda_{2} \boldsymbol {{u}_{1}^{\top}} \boldsymbol {u}_{2}+\boldsymbol\gamma=0 \end{array}$
即
$\boldsymbol\gamma=2\left(\boldsymbol\lambda_{2}-\boldsymbol\lambda_{1}\right) \boldsymbol {{u}_{1}^{\top}} \boldsymbol {u}_{2}=0$
则 (1) 式可简化为
${\Sigma}_ {\boldsymbol x} \boldsymbol {u}_{2}=\boldsymbol\lambda_{2} \boldsymbol {u}_{2}$
说明最优解 $\boldsymbol{u}_{2}$ 为协方差矩阵 $\Sigma_{\boldsymbol x}$ 的第二大特征值 $\boldsymbol\lambda_2$ 对应的特征向量，此时的极值
$\max \boldsymbol {{u}_{2}^{\top}} {\Sigma}_{x} \boldsymbol u_2=\boldsymbol\lambda_{2} \boldsymbol {{u}_{2}^{\top}} \boldsymbol {u}_{2}=\boldsymbol\lambda_{2}$
对于其余的主元 $y_i$ 与 $y_i(i\not=j)$ 需满足 $y_{i}=\boldsymbol{u}_i^{\top}\boldsymbol x$ 与 $y_{j}=\boldsymbol {u}_{j}^{\top}\boldsymbol x$ 不相关，即
$\operatorname{Cov}\left( y_{i}, y_{j}\right)=E\left[\boldsymbol {{u}_{i}^{\top}} \boldsymbol {x} \boldsymbol{x^{\top}}\boldsymbol {u}_{j}\right]=\boldsymbol {{u}_{i}^{\top}} \ {\Sigma}_x \boldsymbol {u}_{j}=0$
假设 $\boldsymbol {u}_{1}, \boldsymbol {u}_{2}, \cdots, \boldsymbol {u}_{i-1}$ 为协方差矩阵 ${\Sigma}_x$ 的最大 $i - 1$ 个归一化的特征向量，而最优解 $\boldsymbol {u}_i$ 定义为第 $i$ 个主元 $\boldsymbol y_i$ 对应的向量（未必为特征向量）。由前过程可知
$\ {\Sigma}_x \boldsymbol {u}_{j}=\boldsymbol\lambda_{j} \boldsymbol {u}_{j}\qquad j=1,2, \cdots, i-1$
且满足
$\boldsymbol {u_i^{\top}}\ {\Sigma}_{x} \boldsymbol u_j = \boldsymbol\lambda_j \boldsymbol {u_i^{\top}} \boldsymbol u_j = 0 \qquad j=1,2, \cdots, i-1,\qquad \lambda_j>0$
即
$\boldsymbol{u_i^{\top}} \boldsymbol u_j=0 \qquad j=1,2, \cdots, i-1$
最优化模型为
$\left\{\begin{array}{l} \max Var[y_i] = \boldsymbol u_i^{\top} \Sigma_{\boldsymbol x} \boldsymbol u_i \\ \text { s.t. } \boldsymbol u_i^{\top} \boldsymbol u_i=1\\ \qquad \boldsymbol u_i^{\top} \boldsymbol u_j = 0 \qquad j = 1,2,\cdots,i-1 \end{array}\right.$
构造拉格朗日函数
$\mathcal{L}\left(\boldsymbol {u}_{i}, \boldsymbol\lambda_i,\boldsymbol\gamma_j \right)=\boldsymbol {{u}_{i}^{\top}} {\Sigma}_ x \boldsymbol {u}_{i}+\boldsymbol\lambda_{i}\left(1-\boldsymbol {{u}_{i}^{\top}} \boldsymbol {u}_{i}\right)+\sum_{j=1}^{i-1}\boldsymbol\gamma_j \boldsymbol {{u}_{i}^{\top}} \boldsymbol {u}_{j}$
置偏导数为0，得
$\frac{\partial \mathcal{L}\left(\boldsymbol u_{i}, \boldsymbol\lambda_{i}, \boldsymbol\gamma_j\right)}{\partial \boldsymbol {u}_{i}}=2 {\Sigma}_{x} \boldsymbol {u}_{i}-2 \boldsymbol\lambda_{i} \boldsymbol {u}_{i}+\sum_{j=1}^{i-1}\boldsymbol\gamma_j \boldsymbol {u}_{j}=\ {0}\tag{2}$

$\frac{\partial \mathcal{L}\left(\boldsymbol u_{i}, \lambda_{i}, \boldsymbol\gamma_j\right)}{\partial \ {\lambda}_{i}}=1-\boldsymbol {u_i^{\top}} \boldsymbol u_i = {0}$

$\frac{\partial \mathcal{L}\left(\boldsymbol u_{i}, \boldsymbol\lambda_{i}, \boldsymbol\gamma_j\right)}{\partial \ {\boldsymbol\gamma}_{j}}=\boldsymbol{u_i^{\top}} \boldsymbol u_j = 0 \qquad j = 1,2, \cdots ,i-1$

(2)式两边同时左乘 $\boldsymbol{u_j^{\top}}$ ,得
$\boldsymbol{2u_j^{\top}} \Sigma_ x \boldsymbol u_i-2\lambda_i \boldsymbol {u_j^{\top}} \boldsymbol u_i + \sum_{j=1}^{i-1} \boldsymbol\gamma_j \boldsymbol u_j^{\top} \boldsymbol u_j=0 \\ 2\lambda_j \boldsymbol u_j^{\top} \boldsymbol u_i - 2\lambda_j \boldsymbol{u_j^{\top}} \boldsymbol u_i + \sum_{j=1}^{i-1} \boldsymbol\gamma_j = 0$
即
$\sum_{j=1}^{i-1} \boldsymbol\gamma_j = 2 \left(\lambda_j - \lambda_i \right) \boldsymbol {u_j^{\top}} \boldsymbol u_i = 0$

由拉格朗日乘子 $\boldsymbol\gamma_j$ 非负，则 $\boldsymbol\gamma_j = 0 \quad j = 1,\cdots,i-1$ 。

(72) 式可简化为
$\Sigma_ {\boldsymbol x} \boldsymbol u_i = \boldsymbol\lambda_i \boldsymbol u_i$
即最优解 $\boldsymbol u_i$ 为协方差矩阵 $\Sigma_{\boldsymbol x}$ 第 $i$ 个特征值 $\lambda_i$ 对应的特征向量，此时的极值为
$\text{max}\;\; \boldsymbol {u_i^{\top}} \boldsymbol\Sigma_x \boldsymbol u_i = \lambda_i \boldsymbol {u_i^{\top}} \boldsymbol u_i = \lambda_i = Var[y_i]$
对于 $\Sigma_{\boldsymbol x}$ 有重复特征根的情形亦如此，略。

由上述定理可知，随机变量 $\boldsymbol x$ 的 $d$ 个主元要优于一个主元，将所有的 $d$ 个主元表示成一个向量
$\boldsymbol{y}=\begin{bmatrix} y_1\\ y_2 \\ \vdots \\ y_d \end{bmatrix} =\begin{bmatrix} \boldsymbol{u}_1^\top\boldsymbol{x}\\ \boldsymbol{u}_2^\top\boldsymbol{x}\\ \vdots \\ \boldsymbol{u}_d^\top\boldsymbol{x}\\ \end{bmatrix} =\begin{bmatrix} \boldsymbol{u}_1^\top\\ \boldsymbol{u}_2^\top\\ \vdots \\ \boldsymbol{u}_d^\top\\ \end{bmatrix}\boldsymbol{x} =U^\top\boldsymbol{x}$
其中 $\boldsymbol y \in R^d,U \in R^{D\times d}$ ,此时 $\boldsymbol y$ 的协方差矩阵可表示为
$\Sigma_{\boldsymbol y} = E[\boldsymbol y \boldsymbol y^{\top}] = E[U^{\top}\boldsymbol x\boldsymbol x^{\top}U] = U^{\top} \Sigma_{\boldsymbol x} U$
满足 $U^{\top}U = I_d$ 。

由线性代数知识可知，对于任意可对角化的矩阵 $A$ ，则存在由 $A$ 的特征向量组成的列表示的矩阵 $V$ ，有 $\boldsymbol\Lambda = V^{-1}AV$ ，而当矩阵 $A$ 是实对称半正定矩阵时，其特征值 $\boldsymbol\lambda_i \ge 0$ ，特征向量互相正交，且 $V^{-1} = V^{\top}$ 。因此，由于 $\Sigma_x$ 是实对称正定矩阵，则方程 $\Sigma_y = U^{\top} \Sigma_x U$ 中 $U$ 的列是协方差矩阵 $\Sigma_x$ 的 $d$ 个特征向量组成。而 $\Sigma_y$ 是一个对角矩阵，对角元为 $\Sigma_x$ 的 $d$ 个特征值。因为我们的目标是极大化 $\boldsymbol y_i$ 的方差 $Var[\boldsymbol y_i] = \lambda_i$ ，所以我们的结论是协方差矩阵 $\Sigma_x$ 的前 $d$ 个最大特征值对应的特征向量做为 $U$ 的列，即为目标的最优解，其极值则为 $\Sigma_y$ 的对角元上 $d$ 个特征值。

3. 非零均值随机变量的主元

当 $\boldsymbol x \in R^D$ 有非零均值，则 $\boldsymbol x$ 的 $d$ 个不相关主元定义为
$y_i = \boldsymbol {u_i^{\top}} \boldsymbol x + a_i \qquad i = 1,2, \cdots ,d$
满足
$\boldsymbol{u_i^{\top}} \boldsymbol u_i = 1，Var(\boldsymbol y_1) \ge Var(\boldsymbol y_2) \ge \cdots \ge Var(\boldsymbol y_d)>0$
由于随机变量 $y_i$ 满足
$\mathbb E[y_i] = 0 \\ \text{cov}(y_i,y_j) = 0 \\ \mathbb E[y_i] = \mathbb E[\boldsymbol{u_i^{\top}} \boldsymbol x + a_i] = \boldsymbol{u_i^{\top}} \mathbb E[\boldsymbol x] + \boldsymbol a_i = \boldsymbol{u_i^{\top}} \boldsymbol\mu_ x + a_i = 0 \qquad i = 1,2, \cdots ,d$
因此 $a_i = - \boldsymbol{u_i^{\top}} \boldsymbol\mu_x$

则
$Var[y_1] = Var[\boldsymbol {u_1^{\top}} \boldsymbol x + a_1] = Var[\boldsymbol {u_1^{\top}} \boldsymbol x - \boldsymbol {u_1^{\top}} \boldsymbol\mu_x] =Var[\boldsymbol{u_1^{\top}} \left (\boldsymbol x - \boldsymbol\mu_x \right)] \\ = E[\boldsymbol{u_1^{\top}} (\boldsymbol x - \boldsymbol\mu_x) (\boldsymbol x - \boldsymbol\mu_x)^{\top} \boldsymbol u_1] = \boldsymbol {u_1^{\top}} E [(\boldsymbol x - \boldsymbol\mu_x) (\boldsymbol x - \boldsymbol\mu_x)^{\top} ] \boldsymbol u_1 = \boldsymbol{u_1^{\top}} \Sigma_{\boldsymbol x} \boldsymbol u_1$
则最优解 $\boldsymbol u_1$ 的计算可描述为 $\text{max} \ Var[y_1]$

即
$\max_{\boldsymbol u_1} \boldsymbol {u_1^{\top}} \Sigma_x \boldsymbol u_1 \\ \boldsymbol{u_1^{\top}} \boldsymbol u_1 = 1$
构造拉格朗日函数
$\mathcal{L}\ (\boldsymbol{u}_{1})=\boldsymbol {{u}_{1}^{\top}} {\Sigma}_ {\boldsymbol x} \boldsymbol {u}_{1}+\boldsymbol\lambda_{i}\left(1-\boldsymbol {{u}_{1}^{\top}} \boldsymbol {u}_{1}\right)$
置拉格朗日函数偏导数为0
$\frac{\partial \mathcal{L} (\boldsymbol u_{1})}{\partial \boldsymbol {u}_{1}}=2 {\Sigma}_{x} \boldsymbol {u}_{1}-2 \boldsymbol\lambda_{1} \boldsymbol {u}_{1} = 0$
得
$\Sigma_ x \boldsymbol u_1 = \lambda_1 \boldsymbol u_1$
由此可知 $\lambda_1$ 和 $\boldsymbol u_1$ 分别为协方差矩阵 $\Sigma_{\boldsymbol x} = (\boldsymbol x - \boldsymbol\mu ) (\boldsymbol x - \boldsymbol\mu )^{\top}$ 的最大特征值与其对应的特征向量。对于地 $i$ 个最优解 $\boldsymbol u_i$ 的解与前面定理的证明完全一致。

4. 零均值随机变量的样本主元

在实际应用中，我们并不知道随机变量的协方差矩阵，只能由样本点进行估计，对于独立同分布且期望为0的样本 $\left \{ \boldsymbol x_i \right \} _{i=1}^N$ ，构造样本矩阵 $\boldsymbol X=[\boldsymbol x_1,\boldsymbol x_2, \cdots ,\boldsymbol x_N]$ ，其样本协方差为
$\Sigma_N = \frac{1}{N} \sum_{i=1}^N \boldsymbol x_i \boldsymbol{x_i^{\top}} = \frac{1}{N} \boldsymbol X \boldsymbol{X^{\top}}$
则 $d$ 个样本主元为
$y_i = \boldsymbol{\hat{u}_i^{\top}} \boldsymbol x \qquad i = 1,2, \cdots ,d$
其中 $\left \{ \boldsymbol u_i \right \} _{i=1}^d$ 为 $\hat\Sigma_N = \frac{1}{N} \boldsymbol X \boldsymbol{X^{\top}}$ 或 $\boldsymbol X \boldsymbol{ X^{\top} }$ 的前 $d$ 个特征向量。

由于 $\boldsymbol X \boldsymbol{X^{\top}} \in \boldsymbol R^{D\times D}$ 是一个非常大的矩阵，所以我们可以利用 $\boldsymbol X$ 的奇异值获得最优解，即
$U_x \Sigma_x V_x^{\top}$

$\boldsymbol{y}=\begin{bmatrix} y_1\\ y_2 \\ \vdots \\ y_d \end{bmatrix} =\begin{bmatrix} \boldsymbol{u}_1^\top\boldsymbol{x}\\ \boldsymbol{u}_2^\top\boldsymbol{x}\\ \vdots \\ \boldsymbol{u}_d^\top\boldsymbol{x}\\ \end{bmatrix} =\begin{bmatrix} \boldsymbol{u}_1^\top\\ \boldsymbol{u}_2^\top\\ \vdots \\ \boldsymbol{u}_d^\top\\ \end{bmatrix}\boldsymbol{x} =U^\top\boldsymbol{x}$

5. PCA 降维案例

We will first demonstrate PCA on a 13-dimensional dataset, by loading wine dataset from sklearn, see info here.

This dataset contains chemical analysis of N=178 different wines by three different cultivators.

The analysis contains the folowing measurements:

Alcohol
Malic acid
Ash
Alcalinity of ash
Magnesium
Total phenols
Flavanoids
Nonflavanoid phenols
Proanthocyanins
Colour intensity
Hue
OD280/OD315 of diluted wines
Proline

So overall, we have N=178 data points, lying in $\mathbb{R}^{D}$ , with D=13. We stack all points together into a matrix X_wine $\in \mathbb{R}^{D\times N}$ .

We have labels 0,1, or 2 for each wine (clutivator). The true labels are given in L_wine.

We want to see whether PCA can be helpful in the unsupervised task of clustering the 178 wines.

We start by loading the dataset, and printing the first 5 data points, just to get a general impression.

# 主成分分析算法
# 输入：
#      X: 数据矩阵大小为 n*D，每一行为 D 维向量（样本点）
# 参数：
#      dims_remain: 降维后保留的维数
#      with_std: 是否进行标准化操作，默认为进行标准化
# 返回：
#      X_reduction: 降维后的数据,数据矩阵大小为 n*d，每一行为 d 维向量（样本点）

from numpy.linalg import svd
from sklearn.preprocessing import StandardScaler

class PCA_PC:
    def __init__(self,dims_remain=2,with_std=True):
        self.dims_remain = dims_remain
        self.with_std = with_std
        
    def fit_transform(self,X):
        if self.with_std:
            ss = StandardScaler() # 此对象针对的是模式矩阵
            ss.fit(X)
            XS = ss.transform(X)
            U,_,_ = svd(XS.T) # 特征值分解函数的输入是模式矩阵的转置，输出 U 的每一列为新坐标轴
            X_reduction = XS@U[:,0:self.dims_remain]
        else:
            U,_,_ = svd(X.T)
            X_reduction = X@U[:,0:self.dims_remain]
        
        return X_reduction

调用函数

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_wine

if __name__ == '__main__':     
    X_wine, L_wine = load_wine(return_X_y=True)
    np.set_printoptions(suppress=True)
    
    model1 = PCA_PC(dims_remain=2,with_std=False)
    X_reduct1 = model1.fit_transform(X_wine)
    plt.figure(figsize=(15,6))
    plt.subplot(121),plt.scatter(X_reduct1[:,0], X_reduct1[:,1], c=L_wine)
    plt.title('Unstandard Preprocessing')
    
    model2 = PCA_PC(dims_remain=2,with_std=True)
    X_reduct2 = model2.fit_transform(X_wine)
    plt.figure(figsize=(15,6))
    plt.subplot(121),plt.scatter(X_reduct2[:,0], X_reduct2[:,1], c=L_wine)
    plt.title('Standard Preprocessing')
    
    plt.show()