单层神经网络

神经元模型

category description
放电模型 复杂但接近真实神经元
点火率模型 简单但忽略细节

感知机

a=hardlim(wTx+b)a=\text{hardlim}(w^Tx+b)

hardlim!=hardlims, where ‘s’ represents ‘symmetric’

hardlim(x)={1,x00,x<0hardlims(x)={1,x01,x<0\text{hardlim}(x)= \begin{cases} 1,&x\geq0\\ 0,&x<0 \end{cases} \qquad \text{hardlims}(x)= \begin{cases} 1,&x\geq0\\ -1,&x<0 \end{cases}

决策边界总是与权值向量正交:显然边界与权值向量有如下关系wTx+b=0w^Tx+b=0

感知机学习规则

假设训练数据为{pi,ti}\{p_i,t_i\} ,感知机输出为 aa:

Wnew=Wold+(tia)piTbnew=bold+(tia)\begin{aligned} W^\text{new}&=W^\text{old}+(t_i-a)p_i^T\\ b^\text{new}&=b^\text{old}+(t_i-a) \end{aligned}

drawback

  1. 无法解决线性不可分问题
  2. 对噪声敏感
  3. 靠近决策边界的数据易错判

hamming

前馈+回复(拉开差距);对应生物神经网络的“侧抑制”现象。

Hamming网络的目标: 判断哪个标准向量更接近输入向量

前馈

W的每一行都是一个标准模式;b的偏置始终为输入向量中元素的个数。

a1=W1p+b1,W1=[p1T,p2T,,pnT],b1=[n,n,,n]Ta^1=W^1p+b^1,W^1=[p_1^T,p_2^T,\dots,p_n^T],b^1=[n,n,\dots,n]^T

回复层

a2=ReLU(W2a1),W2=[1ϵϵ1]a^2=\text{ReLU}(W^2a^1),W^2=\begin{bmatrix} 1 & -\epsilon\\ -\epsilon & 1 \end{bmatrix}

Hopfield

a(t+1)=satlins(Wa(t)+b),where satlins(x)={1,x1x,1x10,x<1a(t+1)=\text{satlins}(Wa(t)+b),\text{where } \text{satlins}(x)= \begin{cases} 1,&x\geq1\\ x,& -1\leq x\leq1\\ 0,& x< -1 \end{cases}

其中W无自连接并且具有对称性

空间

向量空间定义

满足:

  1. 向量乘法
  2. 向量加法

内积函数

需满足

  1. 交换律 (a,b)=(b,a)(a,b)=(b,a)
  2. 分配律 (x,ay1+by2)=a(x,y1)+b(x,y2)(x,ay_1+by_2)=a(x,y_1)+b(x,y_2)
  3. 非负性 (x,x)0(x,x)\geq0,且仅当x=0x=0时取等号

范数

需满足

  1. 非负性 (x,x)0(x,x)\geq0,且仅当x=0x=0时取等号
  2. 标量: αx=αx\parallel\alpha x\parallel=|\alpha| \parallel x\parallel
  3. 三角不等式 (x,y)(x,z)+(y,z)(x,y)\leq(x,z)+(y,z)

Gram-Schmidt正交化

考虑线性无关向量组y1,y2,,yny_1,y_2,\dots,y_n:
正交化:

x1=y1x2=y2(y2,x1)(x1,x1)x1xn=yn(yn,x1)(x1,x1)x1(yn,x2)(x2,x2)x2(yn,xn1)(xn1,xn1)xn1\begin{aligned} x_1&=y_1\\ x_2&=y_2-\frac{(y_2,x_1)}{(x_1,x_1)}x_1\\ \vdots\\ x_n&=y_n-\frac{(y_n,x_1)}{(x_1,x_1)}x_1-\frac{(y_n,x_2)}{(x_2,x_2)}x_2-\dots-\frac{(y_n,x_{n-1})}{(x_{n-1},x_{n-1})}x_{n-1} \end{aligned}

其中,减去的余量可以表示如下,代表减去y2y_2x1x_1方向上的投影长度*单位向量:

(y2,x1)(x1,x1)x1=y2x1cosθx1x1x1\frac{(y_2,x_1)}{(x_1,x_1)}x_1=\frac{\parallel y_2\parallel \parallel x_1\parallel \cos\theta}{\parallel x_1\parallel}\cdot \frac{x_1}{\parallel x_1\parallel}

线性变换

  1. A(x1+x2)=A(x1)+A(x2)A(x_1+x_2)=A(x_1)+A(x_2)
  2. A(αx1)=αA(x1)A(\alpha x_1)=\alpha A(x_1)

Hebb学习

a=Wpa=Wp

相连的神经元会因为相同的值而增加连接强度

wijnew=wijold+αaipjTw^\text{new}_{ij}=w^\text{old}_{ij}+\alpha a_ip_j^T

Wnew=Wold+αaqpqTW^\text{new}=W^\text{old}+\alpha a_qp_q^T

假设权值矩阵初始为0,将向量形式依次应用于𝑸个输入/输出对,可得

W=q=1QtqpqTW=\sum_{q=1}^Q t_qp_q^T

性能分析

当p完全正交时,有

a=Wpkq=1Qtq(pqtpk)=tka=Wp_k\sum_{q=1}^Q t_q(p_q^tp_k)=t_k

最优化

泰勒展开

f(x)=i=0nf(i)(x)i!f(x)=\sum_{i=0}^n \frac{f^{(i)(x)}}{i!}

方向导数:一个函数沿指定方向的变化率

F(x)p=pTF(x)p\frac{\partial F(x)}{\partial p}= \frac{p^T\nabla F(x)}{\parallel p\parallel}

2F(x)p2=pT2F(x)pp2\frac{\partial^2 F(x)}{\partial p^2}=\frac{p^T\nabla^2 F(x)p}{\parallel p\parallel^2}

极小点

  • 强极小点:F(x)<F(x+Δx),Δx<δF(x^*)<F(x+\Delta x), \parallel\Delta x\parallel<\delta
  • 弱极小点:F(x)F(x+Δx),Δx<δF(x^*)\leq F(x+\Delta x), \parallel\Delta x\parallel<\delta
  • 全局极小点:F(x)<F(x+Δx)F(x^*)<F(x+\Delta x)

最速下降法

xnew=xoldαF(xold)x^\text{new}=x^\text{old}-\alpha\nabla F(x^\text{old})

ADaptive LInear NEuron network, ADLINE

本质是最小二乘法 LMS( Least Mean Squares),Widrow-Hoff,δ\delta规则

a=wTpa=w^T p

二次函数 F(x)=12xTAx+dTx+cF(x)=\frac{1}{2}x^TAx +d^Tx+c
F(x)=Ax+d\nabla F(x)=Ax+d
2F(x)=A\nabla^2 F(x)=A

性能函数F(w)=Ee2=E(twTp)2=E(t2)2wTE(tp)+wTE(ppT)wF(w)=E e^2=E(t-w^Tp)^2=E(t^2)-2w^TE(tp)+w^T E(pp^T)w

therefore:性能函数是一个二次函数

R=E(ppT),h=E(tp),c=E(t2)R=E(pp^T),h=E(tp),c=E(t^2)
F(w)=wTRw2hTw+cF(w)=w^TRw-2h^Tw+c, where A=2RA=2R

若相关矩阵只有正的特征值,性能指标将存在唯一的全局最小值

F(w)=0w=R1h\nabla F(w)=0\Rightarrow w^*=R^{-1}h

近似最速下降算法

w(k+1)=w(k)αF(w(k)),F(w(k))=2e(k)p(k)w(k+1)=w(k)-\alpha\nabla F(w(k)), \nabla F(w(k))=-2e(k)p(k)

therefore:

w(k+1)=w(k)+2αe(k)p(k)b(k+1)=b(k)+2αe(k)w(k+1)=w(k)+2\alpha e(k)p(k) b(k+1)=b(k)+2\alpha e(k)

稳定性:

0<α<1λmax of R0<\alpha<\frac{1}{\lambda_\text{max}\text{ of R}}

BP

输入为a1a^1,
a2=f(z2)=f(W1a1)a^2=f(z^2)=f(W^1a^1)

let

J=12i=1n(yiaiL)2J=\frac{1}{2}\sum_{i=1}^n (y_i-a_i^L)^2

δiL=JziL=JaiLaiLziL=(yiaiL)aiLziL=(yiaiL)f(ziL)\delta_i^L=\frac{\partial J}{\partial z_i^L}= \frac{\partial J}{\partial a_i^L}\frac{\partial a_i^L}{\partial z_i^L}= (y_i-a_i^L)\frac{\partial a_i^L}{\partial z_i^L}= (y_i-a_i^L)f'(z_i^L)

therefore:

Jwjil=δjl+1ail\frac{\partial J}{\partial w_{ji}^l}= \delta_j^{l+1}\cdot a_i^l

δl=(δl+1Wl)f(zl)\delta ^l=(\delta^{l+1} W^l)\odot f(z^l)

δil=(k=1nl+1δkl+1Wkil)f(zil)\delta_i^l=(\sum_{k=1}^{n_{l+1}}\delta_k^{l+1}W_{ki}^l)f'(z_i^l)

泛化

一个具有泛化能力的网络将在新的数据环境下具有和训练数据集上同样好的表现。

获得具有良好泛化能力的神经网络的关键策略是找到能够解释数据的最简神经网络模型。(模型越复杂,出错的可能性越大)

衡量泛化能力:

在测试集计算误差

测试集:绝不能以任何形式用于训练网络

方法

  1. early stopping:避免过拟合
  2. 正则化:减小模型复杂度
  3. dropout: al=rlala^l=r^l \odot a^l
  4. 数据增强:
    1. 图片的旋转,缩放,裁剪,镜像等
    2. GAN,加入特效,数据混合…

卷积

对于图像,如果使用线性层:参数量巨大。且没有平移不变性

接收域(感受野)输入空间中连续的一个子区域
卷积(简单细胞)检测感受野中的局部特征
池化(复杂细胞)聚合其感受野中简单细胞所检测的信息

自动编码机

一个好的数据表达,应当能过够对受污染的噪声数据很好地恢复。
为输入手动添加噪声,训练自动编码机,使输入与噪声之前的输出尽可能接近。