目标检测：Mask R-CNN 论文阅读

Mask R-CNN 是 2017 年何恺明团队提出的一个基础网络，可以同时用于「Object Detection」和「Instance Segmentation」，借鉴了 Fast R-CNN 的多任务 Loss ，一举获得最佳论文奖。

核心思想

在 Fast R-CNN 中，rbg 大神引入了 Multi-Tasks Loss 发现对效果的提升有着显著的作用，我们的何恺明同学再次将这一思想运用到了 Mask R-CNN——添加一个 Mask 的 Loss 的支路。添加这一支路看似简单但效果的确明显，在没有运用其他 tricks 的情况下，一举夺下了当年几个比赛的第一。

除此之外，沿用 Faster R-CNN 的网络结构，但是对特征提取的前驱 backbone 网络做了更换，使用现在效果更好的 ResNeXt 并结合上 FPN 结构，再次提高了整个网络的性能。

流程步骤

一图胜千言，整个网络流程如上图所示。

核心部分

Mask R-CNN 更换 Backbone 这一部分我们就不探讨了，有兴趣的可以深入了解 ResNeXt 和 FPN 这两者的论文，接下来我们最着重讲的就是 ROI Align 和 Multi-Tasks Loss。

前者允许了更加精细的位置映射，达到了 piexl-to-piexl 的细粒度；后者允许我们输出目标结果的同时，输出目标的 mask ，提高了整个网络的性能。

ROI Align

首先我们要定义一下原文的 Quantization 到底是什么，这样我们才能理解 ROI Pooling 和 ROI Align 的本质区别。

Quantization 中文的直译是「量化」、「数字化」，放在 Pooling 里面理解就是「整数化」。这样说可能有点抽象，我们都输出 shape 是 2x2 的区域，用 ROI Pooling 和 ROI Align 两种方式展示「圈定区域的方式」。

计算公式

ROI Pooling: $x = [x/S] + 1$

ROI Align: $x = x/S$

前者使用 $[]$ 对结果进行了取整，损失了小数点，而后者保留了小数点。

别看小数点小，但是卷积后 feature map 的 1 个点代表着原图的 S 个点。以 $S=16$ 为例，假设目标框 $x=600$ ，转换到卷积后就是 $600 / 16 = 37.5$ ，卷积后 feature map 差 $0.5$ 意味着原图差 $8$ 。

我们可以从数字上理解，ROI Align 保留了更多的信息，减少了卷积前和卷积后的位置误差，允许了 pixel-to-piexl 的训练和预测。

直观图像

我们看两个图的对比就能理解，左图是 ROI Pooling 右图是 ROI Align 。前者一开始没有考虑到 pixel-to-pixel 训练和预测，做了一个简单的适应；但是后者为了确保信息前后对应、完整，做了更加复杂的处理。

同样是输出 2x2 的区域，后者将区域均分成 2x2 的网格，然后对网格进行 bilinear interpolation（双线性插值），最后输出我们要的区域。

关于图像的双线性插值各位看客可以看这篇图像缩放——双线性插值算法，利用双线性插值的方式得到了我们新的 2x2 网格，再进行 MaxPooling 得到我们的输出。

Multi-Tasks Loss

继承与 Fast R-CNN ，我们多了一条支路，同时输出 mask ，那么我们的 Loss 也要相应的改变：

$$L = L_{cls} + L_{box} + L_{mask}$$

其中 $L_{cls}$ 和 $L_{box}$ 与 Faster R-CNN 一致，重点谈谈我们的 $L_{mask}$ 。

在 m x m 的图像上，支路 mask 会输出 $Km^2$ 维度的数据，其中 $K$ 代表 k 个类别。特别需要注意的是，对于每个 pixel ，我们使用 sigmoid 函数来输出是某类的概率。

训练的时候，$L_{mask}$ 的定义只和真实标签那一类的 mask 有关，其他 mask 与我们无关。

For an RoI associated with ground-truth class k, $L_{mask}$ is only defined on the k-th mask (other mask outputs do not contribute to the loss)

除此之外，作者们给出了为什么使用 sigmoid 的原因：softmax 会导致竞争，而 sigmoid 不会；也正是因为这个不需要和其他类别竞争，我们可以得到更好更精确的结果。

总结 Summary

更换优秀性能的 Backbone 、融合 FPN 的特性、多重任务同时进行，Mask R-CNN 的三驾马车——回归、分类、分割，让人连连称赞。

简单易懂的思想和业界领先的性能，期待着未来更优秀的作品，站着巨人的肩膀看着未来！

目标检测：Mask R-CNN 论文阅读

目标检测：Mask R-CNN 论文阅读

核心思想

流程步骤

核心部分

ROI Align

Multi-Tasks Loss

总结 Summary

参考资料 Reference