U-2net

Author:张一极

原文paper:https://arxiv.org/pdf/2005.09007.pdf

简易,有效的嵌套结构

前言:显著性目标检测

任务目的:获取输入图像中的主体mask

历史方案:

历来的方法都是利用现有的backbone,或者预训练表现出色的主干网络,作为特征提取方法,以图像分割的方式去做。

有的利用CAM去focus某一些区域,或者扩大卷积尺寸,但是增加了参数数量,以及空洞卷积,各类注意力机制,基本都是全监督的解决方案,往往这类网络有共同的特点——过于复杂。

原因:

1.主干作为特征提取模块,网络越来越深;

2.前期将特征图压缩到较小的分辨率,导致信息丢失严重,同时网络深度带来了更高的计算开支。


U2net提出了一个新型的嵌套结构,Unet是单层的U型结构,U2net是在每一个Unet的block里面,都嵌套了一个Ublock,作者提出了RSU模块,用于提取和编码多尺度的特征,获取任意分辨率的多尺度特征,减少了大尺度特征图下采样的细节丢失。

RSU模块如下:

image-20210802191957228

与其他网络block的对比,其中输入输出一致。

特点:提取多尺度特征,同时不降低特征图的分辨率。

U2net总体结构:

image-20210802192148458

loss

L=m=1Mwside (m)side (m)+wfuse fuse 

Wside代表边缘部分的信息丢失损失

Wfuse部分代表最终特征融合以后的损失

二者计算方式都是交叉熵:

=(r,c)(H,W)[PG(r,c)logPS(r,c)+(1PG(r,c))log(1PS(r,c))]

复现细节:

输入尺寸320*320,图像增强随机垂直翻转,随机crop288 * 288

设置初始Wside和Wfuse都为1

使用Adam优化器

初始学习率=1e-3

batchsize=12

嵌套体系比级联结构有着更高的精确度,和更小的算力需求。