论文链接:点击进入论文
近期,机器学习与物理模型优化及数值科学领域碰撞出新的火花。这为物理模型优化问题中的机器学习框架提供了新的用武之地,同时也为物理概念启发下的机器学习领域带来了许多令人兴奋的新模型(如 ODE 和哈密顿网络等)。
此机器学习模型仿佛映一个实际物理系统,这意味着研究者可将训练后的材料分布“打印”到真实的物理设备中。其结果类似专用应用集成电路(ASIC),但仅针对特定的 RNN 计算进行优化。这让人感到非常振奋,因为研究结果表明,这种计算方式在不消耗多余能量(仅使用脉冲本身携带的能量)的情况下,可以执行复杂的循环机器学习计算。
以下是该研究核心思想的详细介绍。
波动与 RNN 的联系
本部分将详细阐述 RNN 的操作与波动之间的内在联系。
RNN 通过逐步对输入序列的每一部分执行相同的操作,将输入序列转换为输出序列(见图 1A)。之前的信息被编码并存储在 RNN 的隐藏状态中,每一步都会更新。正是这些隐藏状态使 RNN 能够记住过去的信息,同时学习数据中的时序结构和长距离依赖关系。在给定的时间步 t 处,RNN 同时处理当前输入向量 x_t 以及前一步传来的隐藏状态向量 h_t-1,从而得到输出向量 y_t,并更新当下的隐藏状态 h_t。
图 1:标准 RNN 与基于波的物理系统之间的概念比较。
物理系统中的元音识别训练
本部分将解释如何利用波动方程训练元音分类器,主要通过构建非均匀材料分布来实现。为此,研究所使用了包含 45 位男性和 48 位女性关于 10 个元音的 930 条原始录音的数据集。在模型训练过程中,选取了关于 ae、ei、iy 这 3 个元音的 279 条录音作为训练集(见图 2A)。
图 2:元音识别的设置与训练过程示意图。
经过 5 次交叉验证训练后取平均值,得到训练集与测试集上的混淆矩阵如图 3(A、B)所示。混淆矩阵对角线上的值表示正确预测元音的比例,非对角线上的值则是未能正确预测的比例。从结果可以看出,初始结构无法完成识别任务。
图 3:元音识别任务的训练结果展示。
图 3 中的 E 和 F 分别展示了交叉熵损失和预测准确率,横坐标是训练集和测试集上的训练 epoch 数。图中的实线表示平均值,阴影区域是交叉验证训练运行的标准差。从图中可以看出,第一个 epoch 的训练使损失下降最多,同时对准确率的提升也最大。从图 3F 中可以看出,该系统在训练集上的平均准确率为 92.6 ±1.1%,在测试集上的平均准确率为 86.3 ± 4.3%。