Author:张一极
简易,有效的嵌套结构
任务目的:获取输入图像中的主体mask
历史方案:
历来的方法都是利用现有的backbone,或者预训练表现出色的主干网络,作为特征提取方法,以图像分割的方式去做。
有的利用CAM去focus某一些区域,或者扩大卷积尺寸,但是增加了参数数量,以及空洞卷积,各类注意力机制,基本都是全监督的解决方案,往往这类网络有共同的特点——过于复杂。
原因:
1.主干作为特征提取模块,网络越来越深;
2.前期将特征图压缩到较小的分辨率,导致信息丢失严重,同时网络深度带来了更高的计算开支。
U2net提出了一个新型的嵌套结构,Unet是单层的U型结构,U2net是在每一个Unet的block里面,都嵌套了一个Ublock,作者提出了RSU模块,用于提取和编码多尺度的特征,获取任意分辨率的多尺度特征,减少了大尺度特征图下采样的细节丢失。
RSU模块如下:
与其他网络block的对比,其中输入输出一致。
特点:提取多尺度特征,同时不降低特征图的分辨率。
U2net总体结构:
Wside代表边缘部分的信息丢失损失
Wfuse部分代表最终特征融合以后的损失
二者计算方式都是交叉熵:
输入尺寸320*320,图像增强随机垂直翻转,随机crop288 * 288
设置初始Wside和Wfuse都为1
使用Adam优化器
初始学习率=1e-3
batchsize=12
嵌套体系比级联结构有着更高的精确度,和更小的算力需求。