本篇我们将一同探索卷积层的起源与发展。
不深入探讨卷积的概念、算法、特点等专业知识,这些内容在众多的书籍和网络资料中都能轻松找到。
关于卷积与,大家都怀有极高的期待。那么,它们究竟有何特别之处呢?为何会如此受到青睐?如果换做是你,会如何选择卷积这个算法?除了卷积,是否还有更好的选择?或者,让我们将时钟拨回到19,那时只有全连接网络在识别手写数字,而网络的应用领域显得颇为有限。面对这样的情境,你是否会继续在这一领域深入研究并寻求突破,或者转向其他领域?
同样的问题,在更早的时期也曾出现过。当年,当英国物理学家威廉·在演讲中表示“物理学的大厦已经基本建立,未来的物理学家只需要做些修修补补的工作”时,物理学家们将如何应对这一情况?
现在,让我们从19那个关键的时刻开始,一步步地探索卷积的由来。我们希望达到的效果是,即使是我,也能推导出网络的原理。
input -> FC -> output
手写数字识别的关键不在于像素,而在于特征。我们观察到的8和0的特征,比如圈的数量和形状,远比像素值更重要。一旦我们明白了这一点,对网络的改进就有了方向性。我们需要在FC之前加入一个特征分析的环节。
具体来说,我们可以将网络的架构写作:
input -> FE -> FC -> output
其中FE代表特征提取。我们对FE的要求是将像素转化成某种特征。具体怎么转,暂时不说。加入FE后,FC的输入就变成了特征,不再是像素了。这样FC虽然还是分类器,但已经是针对特征进行分类,而不是对像素进行分类了。
如何设计FE?这并不容易。纯手工调制的方式效率低下,需要资深设计师的把控。而且一个任务一个FE,比如识别狗和识别猫的FE可能是完全不同的。这时候我们开始思考,是否有一种自动化的方法可以实现FE?
回答是有的。当我们回看系统论的知识时,会发现卷积模型是一个可能的解决方案。虽然微分方程和传递函数也可以描述系统的输入输出关系,但卷积的不同之处在于其方程是确定的,不同的模型只在于不同的系数。这为计算机通过大量计算找到合适的系数提供了可能。
经过思考和尝试,我们发现卷积是自动化FE的一个好方法。用卷积这个方法搭建一层网络,然后用损失函数+BP算法这个套路,让计算机猛算合适的w和b,非常奈斯!所以网络演化成了今天的样子:若干个卷积层加若干个全连接层。
拿电子电路中的滤波器作为例子我们理解了“特征提取”不仅仅是要滤掉不需要的部分更重要的是要强化需要部分如强调大气中的电台信号压制其他无关信号的声音在整幅图上使用同一个特征提取器强化不同位置的同一特征多亏了卷积层的存在得以实现那么这便是系统论下我们获得的宝贵的自动化的“特征提取器”。而且这样设计的核心逻辑更加强调“强化”的概念从而引出了后续的多种多样的卷积核如边缘增强平滑等。
再回到LeNet引入的卷积以及之后的AlexNet中多层小卷积核替换大卷积核的做法这是为了更好地捕捉图像中的局部特征同时减少计算量以提升效率。小卷积核比大卷积核更优的原因在于大范围并不一定带来更好的效果反而可能因为覆盖了过多的像素导致特征提取的冗余而小范围的特征提取器更关注局部细节比如8和0的圈数或形状等这些才是我们真正关心的信息因此采用小尺寸的卷积核是有意义的而这也是系统论中优化问题的必然结果。