gi代表当前步骤的梯度∇F(x)∣x=xi,αi代表当前的学习率,
Ai代表当前的Hessian矩阵(∇2F(x)∣x=xi)
共轭向量法
p0=−∇F(x)∣x=x0α0=p0TA0p0−g0Tp0x1=x0+α0p0
while True: (其中1代表后一步的)
β1=g0Tg0g1Tg1p1=−g1+β1p0α1=p1TA1p1−g1Tp1x2=x1+α1p1
最速下降法
xk+1=xk−αkgk
最大稳定学习率(二次型)
α<λmax2
λmax是A的最大特征值
沿直线最速下降算法
while True: (其中1代表后一步的)
p0=−∇F(x)∣x=x0α0=p0TA0p0−g0Tp0x1=x0+α0p0
牛顿法
xk+1=xk−Ak−1gk