当PS遇上了AI:分割抠图算法总结
说到抠图,我们更多人首先想到的是Photoshop。选定目标主体后,用魔棒抠图、方框抠图、滤镜抠图、通道蒙版抠图等方法,根据处理图像的特点,采取有针对性的手动方法,获得想要的抠图效果。
图1 PS处理多余文字
现在市面上的AI抠图应用越来越多,这些应用程序易于操作。只要上传图片,然后通过AI进行处理,就可以快速生成图像抠图的主体。从计算机的识别角度来看,图像是由前景和背景组成的,抠图的感兴趣区域是前景(如人像)。目的是分离前景和背景,表达如下:
图2 背景分离公式
其中:I表示像素索引,F表示前景,B表示背景,α表示像素属于前景的概率(取值0~1),下面总结一下主流的AI抠图算法。
Deep Image Matting(2017)
Ning Xu和Brian Price等人使用deep learning来解决图像消光问题。该网络由两个阶段组成:第一阶段是一个深度卷积encoder-decorder网络,它将一个图像补丁和一个trimap作为输入,并由阿尔法预测损失和一个新的损失函数进行惩罚。第二阶段是一个小型的完全卷积网络,用更准确的阿尔法值和更清晰的边缘来完善第一个网络的阿尔法预测。
图3 网络的两个阶段:encoder-decoder stage和refinement stage
为了训练消光网络,研究者通过将真实图像中的物体合成到新的背景上,创建一个更大的数据集。他们找到简单或普通背景的图像,包括27张训练图像和视频中的每五帧。使用Photoshop,并小心翼翼地手动创建一个阿尔法哑光和纯前景颜色。因为这些物体有简单的背景,可以为它们拉出准确的哑光。然后,把这些当作地面实景,对于每个阿尔法和前景图像,研究者在MS COCO和Pascal VOC中随机抽取N张背景图像,并把物体合成到这些背景图像上。
Background Matting v2
高分辨率的哑光是一种挑战,因为直接应用深度网络会产生不切实际的计算和内存消耗。如图4所示,人类的哑光通常是非常稀疏的,其中大面积的像素属于背景(α=0)或前景(α=1),只有少数区域涉及更精细的细节,如头发、眼镜和人的轮廓周围。因此,研究者没有设计一个在高分辨率图像上运行的网络,而是引入了两个网络;一个在低分辨率下运行,另一个只在基于前一个网络预测的原始分辨率的选定斑块上运行。
图4 Gbase下采样操作,Grefine选择容易出错的斑块
MODNet: Trimap-Free Portrait Matting in Real Time
Zhanghan Ke和Jiayu Sun 将现有的肖像矩阵方法要么需要获得昂贵的辅助输入,要么涉及多个阶段,计算成本高。昂贵的计算,使其不太适合于实时应用。他们在这项工作中提出了一个轻量级的消光目标分解网络(MODNet)。
图5 MODNet的结构
首先,该工作引入了一个高效的Atrous空间金字塔池(e-ASPP)模块,以融合多尺度特征进行语义估计。第二,提出了一个自监督的子目标一致性(SOC)策略,使MODNet适应现实世界的数据,以解决无边际方法中常见的领域转移问题。MODNet很容易以端到端方式进行训练。它的速度远远高于同时代的方法,在1080Ti GPU上以每秒67帧的速度运行。
图6 PPM-100无Trimap方法的视觉比较
实验表明,MODNet在Adobe Matting Dataset和一个名为 "Detail "的数据集上的表现远远优于之前的无截距方法。在Adobe Matting Dataset提出的精心设计的摄影肖像消光(PPM-100)基准上,MODNet都以较大的优势胜出。此外,MODNet在日常照片和视频上取得了显著的成果。日常照片和视频上取得了显著效果。
AI抠图可拓展性很强,未来或许并不局限于“静态平面”抠图,在图片基础上,还能进一步图片编辑或二维动画生成,通过在线流媒体技术,实现图片主体随意剪辑,创新传统抠图形式也是未来的发展趋势之一。期待未来的分割抠图功能不断拓展,图片处理内容生态更加丰富,AI产业迈向更高的阶梯。
“本文为“AI购-快联科技让每个企业都能愉悦地连接AI”出品,转载请注明”
https://quickconn.net.cn/