Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型

收藏:517

Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型

卷积神经网路(CNN)广泛用于影像分类、人脸辨识、物体侦测及其他工作。然而,为行动装置设计 CNN 模型是个大挑战,因行动模型需要又小又快,同时还要保持足够的準确率。虽然研究人员花了非常多时间精力在行动模型的设计和改良,做出 MobileNet 和 MobileNetV2 这类成果,但人工设计高效模型始终很有难度,其中有许多可能性需要考虑。

受 AutoML 神经网路架构搜寻研究的启发,Google Brain 团队开始考虑能否透过 AutoML 的力量让行动装置 CNN 模型设计也更进一步。Google AI 部落格的新文章,介绍了用 AutoML 思路为行动装置找到更好网路架构的研究成果,以下为文章编译。

Google 论文《MnasNet: Platform-Aware Neural Architecture Search for Mobile》中,尝试了一种基于强化学习範式的自动神经网路架构搜寻方法来设计行动模型。为了应付行动装置的执行速度限制,Google Brain 研究人员专门把执行速度资讯也加入搜寻演算法的主回馈函数,这样搜到的模型就是可在执行速度和辨识準确率之间取得良好平衡的模型。透过这种方法,MnasNet 找到的模型比目前顶级人工设计模型 MobileNetV2 快 1.5 倍,比 NASNet 快 2.4 倍,同时还保持同样的 ImageNet 首位準确率。

以往的网路架构搜寻方法中,模型的执行速度通常借助另一种指标参考(比如考虑装置的每秒运算数目),而 Google Brain 此次透过在给定的装置上执行模型,直接测量模型的执行时间长短;研究使用的就是自家 Pixel 手机,可直接测量模型在真实环境执行时的具体表现,尤其不同型号的行动装置有不同的软硬体属性,仅凭运算速度这项指标无法概括全部情况;为了达到準确率和执行速度之间的最佳平衡,所需的模型架构也有不同。

Google Brain 方法的总体流程主要由 3 个部分组成:一个基于 RNN 的控制器用于学习模型架构并取样,一个训练器用于构建模型并训练模型得到準确率,还有一个推理引擎,会在真实手机上透过 TensorFlow Lite 执行模型、测量模型的执行速度。他们把工作公式化为一个多目标最佳化问题,最佳化过程中得以兼顾高準确率和高执行速度;使用的强化学习演算法有个自订回馈函数,可在不断探索时找到帕累托最优的解决方案(如不断提升模型準确率,同时不让执行速度降低)。

Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型

 为行动装置自动搜寻神经网路架构的总体流程图。

对网路架构搜寻过程,为了在搜寻弹性和空间大小之间取得平衡,Google Brain 研究人员提出一种新的因子分解层级化搜寻空间,设计是把一整个卷积网路分解为一系列按顺序连线的模组,然后用一个层级化搜寻空间决定每个模组的层架构,这样设计的搜寻流程可允许不同层使用不同作业和连线方式。同时也强制要求同个模组的所有层都共用同种架构,相比普通的每层独立搜寻架构,这样就把搜寻空间显着减小数个等级。

Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型

 从新因子分解层级化搜寻空间取样得到的 MnasNet 网路,整个网路架构可有多种不同层。

Google Brain 研究人员在 ImageNet 影像分类和 COCO 物体侦测工作测试这种方法的效果。实验中,这种方法找到的网路在典型行动装置计算速度限制下达到準确率新高纪录。下图展示了 ImageNet 的结果。

Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型

 ImageNet 的首位準确率与推理延迟对比。论文新方法找到的模型记号为 MnasNet。

在 ImageNet,如果要达到同样準确率,MnasNet 模型可比目前顶级人工设计的模型 MobileNetV2 快 1.5 倍,比 NASNet 快 2.4 倍,其中 NASNet 也是用网路架构搜寻找到的。採用「压缩─激励」(squeeze-and-excitation)最佳化后,Google 新的 MnasNet + SE 模型首位準确率可达 76.1%,这已达 ResNet-50 水準,但却比 ResNet-50 的参数少了 19 倍,乘─加的计算运算目也减少了 10 倍。在 COCO,Google 的模型系列可同时在準确率和执行速度领先 MobileNet,準确率与 SSD300 模型相当,但所需计算量少了 35 倍。

Google Brain 研究人员很高兴看到自动搜寻得到的模型可在多个複杂的行动电脑视觉工作取得顶级成绩。未来他们计划在搜寻空间整合更多作业和最佳化方法供用户选择,也尝试应用到语义分割等更多行动电脑视觉工作。