二次型优化问题 - 6 - 共轭梯度法

本文最后更新于：2023年8月2日下午

本文介绍二次型优化方法中比较优秀的迭代方法——共轭梯度法。

问题描述

重述我们需要优化的问题：

$\begin{matrix} (1) & f (x) = \frac{1}{2} x^{T} A x - b^{T} x + c \end{matrix}$

矩阵 $A$ 正定对称
目标为优化 $x$ ，使得 $f (x)$ 取得最小值

最速下降法的问题

贪心计算局部最小值
没有全局视野，没有使用真正的模型建模
导致优化过程需要反复迭代才能逐步逼近最优值

轭

轭是一个汉字，读作è，本意是指驾车时套在牲口脖子上的曲木，引申义是束缚，控制。该文字在《仪礼·既夕礼》和《荀子·正论》等文献均有记载。 ——百度百科

数学中很多轭相关的内容，此处的共轭表示相互约束，在某个条件下可以相互作用的意思。

共轭梯度法思想来源

为解决最速下降法来回往复的问题，人们开始思考是否有可以直接在需要优化的二次函数定义下直接对其进行优化，是否可以通过有限步计算得到真正的最优解
那么假设我们使用关于该问题精确的模型而不是近似的局部最优模型，我们如果可以在某个N维空间中，分别计算出最优解的各个维度的坐标，就可以达到上述目的
那么如何设计这个空间，如何可以分步计算并且可以整合成真正的结果，是共轭梯度法来解决的问题
该方法的核心思想是建立一组N维空间线性无关的一组基，理论上这组基的线性组合可以表示空间中任意一点，共轭梯度法通过多次计算，精确求解目标在空间中位置在这组基空间中的各个系数分量，达到求解最优值的目的
该方法和最速下降法却别在精确建模，有了上帝视角，每次迭代计算将该方向需要调整的分量值调整到极致，也就是说之后的计算再也不用考虑该方向上的运动分量了，这是一个精确求解问题的过程，不是逐步简单建模向最优值挪动的逼近过程

共轭基的定义

设 $A$ 为 $n$ 阶实对称正定矩阵，如果有两个 $n$ 维列向量 $s_{1}$ 和 $s_{2}$ 满足

\begin{matrix} (2) & s_{1}^{T} A s_{2} = 0 \end{matrix}

则称向量 $s_{1}$ 和 $s_{2}$ 对于矩阵 $A$ 共轭。如果 $A$ 为单位矩阵，则式 $(2)$ 即成为 $s_{1}$ $s_{2}$ ，这样两个向量的点积为零，此二向量在几何上是正交的，它是共轭的一种特例。

设A为对称正定矩阵，若一组非零向量 $s_{1}$ , $s_{2}$ ,…, $s_{n}$ 满足

\begin{matrix} (3) & s_{i}^{T} A s_{j} = 0 (i \neq j) \end{matrix}

则称向量系

s_{i} (1 \leq i \leq n)

为关于矩阵

A

共轭。若

s_{i} (1 \leq i \leq n)

之间线性无关，那么我们称该向量集合为

n

维空间中关于矩阵

A

的一组共轭基。

共轭基的作用

假设有一组关于矩阵 $A$ 的共轭基 $D$ ：

$\begin{matrix} (4) & D = d_{1}, d_{2}, \dots, d_{n} \end{matrix}$

设二次型函数 $(1)$ 的极值为 $x^{*}$ ，用 $D$ 表似为：

\begin{matrix} (5) & x^{*} = λ_{1} d_{1} + λ_{2} d_{2} + \dots + λ_{n} d_{n} \end{matrix}

因为函数极值处在各个方向的导数为0有：

\begin{matrix} (6) & \begin{array}{l} f^{'} (x^{*}) = A x^{*} - b = 0 \\ \Rightarrow A x^{*} = b \end{array} \end{matrix}

我们计算 $d_{i}^{T} A x^{*}$ ，根据不同共轭基之间相互共轭：

\begin{matrix} (7) & \begin{array}{l} d_{i}^{T} A x^{*} & = d_{i}^{T} A (λ_{0} d_{0} + \dots + λ_{n - 1} d_{n - 1}) \\ = λ_{i} d_{i}^{T} A d_{i} + 0 \end{array} \end{matrix}

得到：

\begin{matrix} (8) & λ_{i} = \frac{d_{i}^{T} A x^{*}}{d_{i}^{T} A d_{i}} = \frac{d_{i}^{T} b}{d_{i}^{T} A d_{i}} \end{matrix}

对于 $λ_{i}$ 的求解，我们已知的变量为 $b$ 和 $A$ ，如果我们已经得到了空间中关于 $A$ 的共轭基（任意一组），我们都可以直接解得 $λ_{i}$
这是一个令人振奋的结论，所以我们当前的工作重点转为了如何快速地求得一组关于 $A$ 的共轭基

根据定义获取共轭基

有了定义，我们不难想到暴力获取共轭基的方法：

这套方法下来，我们就可以得到根据定义计算出来的共轭基，带入 $(8)$ 计算得到极值，没有任何问题
但事实上这个运算量与代数法解 $A x = b$ 的过程具有相当的运算复杂度，没有给该优化问题带来性能收益

共轭梯度法

此算法核心步骤与最速下降法相同，分别为寻找共轭方向与计算运动步长。

寻找共轭方向

由于计算梯度简单，寻找共轭梯度的过程依附于梯度方向的计算。

优化目标为 $x^{*}$ ，初始位置为 $x_{1}$ ，需要求得的共轭基为 $D = d_{1}, d_{2}, \dots, d_{n}$
计算初始 $x_{1}$ 位置的梯度，第一个共轭基为梯度的反方向：

\begin{matrix} (9) & d_{1} = - g_{1} = - (A x_{1} - b) = b - A x_{1} \end{matrix}

第 $i$ 个梯度若要剔除掉第 $j$ 个共轭基 $(j < i)$ 方向的分量，需要减去该方向的 $β_{j}$ 分量：

\begin{matrix} (10) & \begin{array}{l} d_{j}^{T} A (g_{i} - β_{j} d_{j}) = 0 \\ d_{j}^{T} A g_{i} = β_{j} d_{j}^{T} A d_{j} \\ β_{j} = \frac{d_{j}^{T} A g_{i}}{d_{j}^{T} A d_{j}} \end{array} \end{matrix}

因此第 $k$ 个共轭基为：

\begin{matrix} (11) & \begin{array}{l} d_{k} = g_{k} - \sum_{i = 1}^{k - 1} \frac{d_{i}^{T} A g_{k}}{d_{i}^{T} A d_{i}} d_{i} \\ d_{k} = g_{k} - \sum_{i = 1}^{k - 1} β_{i} d_{i} \end{array} \end{matrix}

目前，我们如果可以确定每一次迭代移动的 $x_{i}$ 的位置，求得 $g_{i}$ ，那么就可以根据第1到第 $i - 1$ 个共轭基确定当前第 $i$ 个共轭基
因此当前我们的目标是在有了共轭方向后，如何确定在该方向上的运动距离

确定运动距离

已经运动到了 $x_{k}$ 的位置，下一个前进方向为 $d_{k}$ ，前进步长 $α_{k}$ ，误差为 $e_{k} = x^{*} - x_{k}$ ，也就是说： $\begin{matrix} (12) & x_{k + 1} = x_{k} + α_{k} d_{k} \end{matrix}$

这里介绍两种求前进步长 $α_{k}$ 的思路。

方法一

确定第 $k$ 步的运动步长 $α_{k}$ ，也就是一个共轭基的系数，限制该系数的条件为：

当前共轭基的方向 $d_{k}$ 与误差向量 $e_{k + 1} = x^{*} - x_{k + 1}$ 共轭： $\begin{matrix} (13) & \begin{aligned} d_{k}^{T^{'}} A e_{k + 1} & = d_{k}^{T} A (x^{*} - x_{k + 1}) \\ = d_{k}^{T} A (x^{*} - x_{k} + x_{k} - x_{k + 1}) \\ = d_{k}^{T} A (e_{k} - α_{k} d_{k}) \\ = d_{k}^{T} A e_{k} - α_{k} d_{k}^{T} A d_{k} = 0 \end{aligned} \end{matrix}$
有：

\begin{matrix} (14) & \begin{aligned} α_{k} & = \frac{d_{k}^{T} A e_{k}}{d_{k}^{T} A d_{k}} \\ = \frac{d_{k}^{T} A (x^{*} - x_{k})}{d_{k}^{T} A d_{k}} \\ = \frac{d_{k}^{T} (A x^{*} - A x_{k})}{d_{k}^{T} A d_{k}} \\ = \frac{d_{k}^{T} (b - A x_{k})}{d_{k}^{T} A d_{k}} \\ = - \frac{d_{k}^{T} g_{k}}{d_{k}^{T} A d_{k}} \end{aligned} \end{matrix}

方法二

对 $f (x_{k + 1})$ 中的 $α_{k}$ 求导，使得导数为0，计算 $α_{k}$ :

用 $x_{k}$ 表示 $x_{k + 1}$ : $\begin{matrix} (15) & \begin{array}{l} f (x_{k + 1}) & = f (x_{k} + α_{k} d_{k}) \\ = \frac{1}{2} x_{k + 1}^{T} A x_{k + 1} - b^{T} (x_{k} + α_{k} d_{k}) + c \end{array} \end{matrix}$
对 $f (x_{k + 1})$ 中 $α_{k}$ 求导: $\begin{matrix} (16) & \begin{array}{l} f^{'} (x_{k + 1} | α_{k}) & = \frac{\partial f (x_{k + 1})}{\partial x_{k + 1}} \frac{\partial x_{k + 1}}{\partial α_{k}} \\ = (A x_{k + 1} - b)^{T} d_{k} \\ = (A x_{k} + α_{k} A d_{k} - b)^{T} d_{k} \\ = (α_{k} A d_{k} + g_{k})^{T} d_{k} \\ = α_{k} d_{k}^{T} A d_{k} + g_{k}^{T} d_{k} \end{array} \end{matrix}$
使导数为0，有: $\begin{matrix} (17) & \begin{array}{l} α_{k} d_{k}^{T} A d_{k} + g_{k}^{T} d_{k} = 0 \\ α_{k} = - \frac{g_{k}^{T} d_{k}}{d_{k}^{T} A d_{k}} = - \frac{d_{k}^{T} g_{k}}{d_{k}^{T} A d_{k}} \end{array} \end{matrix}$

此时我们已经计算得到了一系列计算共轭梯度的方法，能够依次求得一套共轭基了，但是其中有些步骤仍然可以继续简化计算。

简化计算与一些推论

推论一

第 $k$ 步计算的梯度 $g_{k}$ 和前 $k - 1$ 步的共轭向量 $d_{1}, d_{1}, . . ., d_{k - 1}$ 正交:
证明，当 $i < j$ 时： $\begin{matrix} (18) & \begin{array}{l} d_{i}^{T} g_{j} & = d_{i}^{T} (A x_{j} - b) \\ = d_{i}^{T} (A x_{j} - A x^{*}) \\ = - d_{i}^{T} (A x^{*} - x_{i + 1} + x_{i + 1} - x_{j}) \\ = - d_{i}^{T} A (e_{i + 1} - \sum_{k = i + 1}^{j - 1} α_{k} d_{k}) \\ = - d_{i}^{T} A e_{i + 1} + \sum_{k = i + 1}^{j - 1} α_{k} d_{i}^{T} A d_{k} \end{array} \end{matrix}$
式 $(18)$ 左边由于 $d_{i}$ 计算过程 $(13)$ 为0，右边由于不同的共轭向量间两两共轭值为0，所以最终的值也为0
因此证明了：第 $k$ 步计算的梯度 $g_{k}$ 和前 $k - 1$ 步的共轭向量 $d_{1}, d_{1}, . . ., d_{k - 1}$ 正交。

推论二

第 $k$ 步计算的梯度 $g_{k}$ 和前 $k - 1$ 步的梯度 $g_{1}, g_{1}, . . ., g_{k - 1}$ 正交:
证明，当 $i < j$ 时：
由 $(11)$ 得：

\begin{matrix} (19) & g_{i} = d_{i} + \sum_{k = 1}^{i - 1} β_{k} d_{k} \end{matrix}

有：

\begin{matrix} (20) & \begin{array}{l} g_{i}^{T} g_{j} & = (d_{i} + \sum_{k = 1}^{i - 1} β_{k} d_{k})^{T} g_{j} \\ = \sum_{k = 1}^{i} β_{k} {d_{k}}^{T} g_{j} (β_{i} = 1) \end{array} \end{matrix}

根据推论一，式 $(20)$ 值为0
证得结论：第 $k$ 步计算的梯度 $g_{k}$ 和前 $k - 1$ 步的梯度 $g_{1}, g_{1}, . . ., g_{k - 1}$ 正交。
那么对于两个不同的梯度 $g_{i}, g_{j} (i \neq j)$ ，那么二者必分前后，因此各个梯度之间相互正交，即 $G = {g_{1,} g_{2}, . . ., g_{n}}$ 组成了 $n$ 维空间中的一组正交基

推论三

计算 $g_{j + 1}^{T} g_{i}$ : $\begin{matrix} (21) & \begin{array}{l} g_{j + 1}^{T} g_{i} & = (A x_{j + 1} - b)^{T} g_{i} \\ = (A (x_{j} + α_{j} d_{j}) - b)^{T} g_{i} \\ = (A x_{j} - b + α_{j} A d_{j})^{T} g_{i} \\ = (g_{j} + α_{j} A d_{j})^{T} g_{i} \\ = g_{j}^{T} g_{i} + α_{j} d_{j}^{T} A g_{i} \\ d_{j}^{T} A g_{i} & = \frac{1}{α_{j}} (g_{j + 1}^{T} g_{i} - g_{j}^{T} g_{i}) \end{array} \end{matrix}$
根据式 $(21)$ 和推论二，由于一般情况下 $α_{j}$ 不为0，因此对于所有情况为保证 $(20)$ 成立，需要当 $i \neq j$ 且 $i \neq j + 1$ 时， $d_{j}^{T} A g_{i} = 0$
这意味着当前的梯度方向与上一个共轭方向之前的和当前之后的所有共轭方向共轭正交

简化计算

对于式 $(11)$ 中，在求解 $d_{k}$ 过程中产生的系数 $β$ ，此处强调一下 $(10)$ :

β_{i} = \frac{d_{i}^{T} A g_{k}}{d_{i}^{T} A d_{i}}

由推论三， $(10)$ 中当 $i \neq k$ 且 $i \neq k - 1$ 时， $d_{i}^{T} A g_{k}$ 值为0
因此式 $(11)$ 可以简化为： $\begin{matrix} (22) & \begin{array}{l} d_{k} & = g_{k} - \sum_{i = 1}^{k - 1} β_{i} d_{i} \\ = g_{k} - β_{k - 1} d_{k - 1} \end{array} \end{matrix}$
即在求解第 $k$ 个共轭基时，仅需要在当前梯度 $g_{k}$ 上减去第 $k - 1$ 个共轭基的共轭分量即可

推论四

根据简化计算的公式 $(22)$ ，有:

\begin{matrix} (23) & \begin{array}{l} d_{k} & = g_{k} - β_{k - 1} d_{k - 1} \\ = g_{k} - β_{k - 1} (g_{k - 1} - β_{k - 2} d_{k - 2}) \\ = g_{k} + γ_{k - 1} g_{k - 1} + γ_{k - 2} g_{k - 2} + \dots γ_{1} g_{1} \\ = \sum_{i = 1}^{k} γ_{i} g_{i} \end{array} \end{matrix}

其中固定的常数系数用 $γ$ 表示
那么有：

\begin{matrix} (24) & \begin{array}{l} g_{i}^{T} d_{j} & = g_{i}^{T} \sum_{k = 1}^{j} γ_{k} g_{k} \\ = \sum_{k = 1}^{j} γ_{k} g_{i}^{T} g_{k} \end{array} \end{matrix}

式 $(24)$ 根据推论二的结论，值为：

\begin{matrix} (25) & g_{i}^{T} d_{j} = {\begin{matrix} 0, i > j \\ γ_{i} g_{i}^{T} g_{i}, i \leq j \end{matrix} \end{matrix}

即某个梯度与所有共轭基的投影为0或一个常数（对该方法来说不是一个有实用性的结论）

共轭梯度法实操步骤

初始条件：已知 $A, b$ ，初始位置 $x_{1}$
$g_{1} = A x_{1} - b$
$d_{1} = - g_{1}$
$k = 1$
$w h i l e k \leq n :$
- $α_{k} = - \frac{d_{k}^{T} g_{k}}{d_{k}^{T} A d_{k}}$
- $x_{k + 1} = x_{k} + α_{k} d_{k}$
- $g_{k + 1} = A x_{k + 1} - b$
- $β_{k} = \frac{d_{k}^{T} A g_{k + 1}}{d_{k}^{T} A d_{k}}$
- $d_{k + 1} = g_{k + 1} - β_{k} d_{k}$
- $k = k + 1$
$r e t u r n x_{n + 1}$

参考资料

文章链接：
https://www.zywvvd.com/notes/study/machine-learning/conjugate-gradient-algorithm/conjugate-alg/conjugate-alg/

“觉得不错的话，给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信支付

支付宝支付

Machine_Learning

#Machine_Learning

二次型优化问题 - 6 - 共轭梯度法

https://www.zywvvd.com/notes/study/machine-learning/conjugate-gradient-algorithm/conjugate-alg/conjugate-alg/

作者

Yiwei Zhang

发布于

2020年12月26日

许可协议

Python - 读取大图片上一篇

Hexo -16- 折叠博客内容下一篇