北京国家信息科学技术研究中心和清华大学的研究人员近期开发了一种用于计算机视觉任务的无透镜光电神经网络架构。该架构利用成像光路中插入的无源掩模版在光域执行卷积运算。
它能够有效应对自然场景中的非相干和宽带光信号的挑战,旨在克服卷积神经网络遇到的带宽瓶颈,同时避免光学神经网络 (ONN) 遇到的问题。
然而,ONN 需要相干激光作为计算光源,并且需要一种替代方案来使 ONN 与自然光场景中的成熟机器视觉系统结合使用。因此,人们对提出了前端为光学、后端为电子的光电混合神经网络。这些基于透镜的系统增加了其在自动驾驶等边缘设备中的使用难度。
与传统机器视觉系统中的硬件架构相比,研究人员提出用靠近图像传感器的光学振幅掩模版来代替透镜。根据光沿直线传播的几何光学理论,空间场景可以看作是点光源的集合,光信号经过掩模版进行空间调制,在图像传感器上实现移位和叠加的卷积运算。
图1 替换网络卷积层的光学掩模版示意图
为验证该架构中光学卷积的性能,该团队设计了一个手写数字识别任务。在使用单个卷积核时,识别准确率达到了 93.47%。当在掩模版上并行排列多核实现单层多通道卷积运算,识别精度可提升至97.21%。相比传统机器视觉链路,可节省大约50%的能耗。
此外,通过扩大光学掩模版的维度,图像在光域中进行卷积。然后,传感器捕获了人眼无法辨认的混叠图像,从而可以在不消耗计算量的情况下对隐私信息进行自然加密。
该团队通过面部识别任务验证了光学加密的性能。与随机最大长度序列模式相比,端到端的无透镜光电神经网络联合优化后的掩模版的人脸识别精度可提升超过6%。研究人员表示该技术有望应用于自动驾驶、智能家居和智能安全等领域。
该研究发表在 Light: Science & Applications (www.doi.org/10.1038/s41377-022-00809-5) 。