雷锋网 - 何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法

上一篇(左方向键) 下一篇(右方向键) 回目录(回车键) 粗体(B键)  正常(N键) 随机浏览(S键)   浏览次数:96    发布时间:2019/4/3 12:27:16   出处:雷锋网   
何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法 - 后花园网文 - 科技新闻

  TensorMask 密集实例分割效果示例。左图:示例图;右图:局部放大。图中可以看到,不仅较大和较小的物体都得到了较为完善的勾画,物体之间相互遮挡的边缘也能够正确地处理。

  雷锋网 AI 科技评论按:大家都知道物体检测算法中有单阶段方法和双阶段方法之争,前者一般运算量较低、运行速度更快,但后者的准确率一般更高,适合需要精度的场合。

  双阶段物体检测的标杆方法 Faster R-CNN 和Mask R-CNN 都来自 FAIR 研究员何恺明,而他也在单阶段方法的研究上做出了突破,提出了 RetinaNet。不过何恺明组意识到,目前的单阶段方法都仅仅针对了预测边界框的任务,而在像素级实例分割方面没有什么建树。他们欣然接受了这一挑战,并带来了这篇论文《TensorMask: A Foundation for Dense Object Segmentation》(TensorMask,密集物体分割的基础),arxiv.org/abs/1903.12174。雷锋网 AI 科技评论把论文主要内容概要介绍如下。

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法 - 后花园网文 - 科技新闻

  「滑动窗口」,在图像中不同的位置密集放置许多不同的窗口,并分别在这些窗口里尝试寻找物体的做法,是计算机视觉领域最早、也最成功的概念之一,我们也自然地在卷积神经网络中见到了这种范式。然而,虽然如今的表现最好的目标检测系统仍然依靠预测滑动窗口来生成最初的候选区域,紧接着我们会在这些候选区域上进行第二阶段的优化过程(重新判别)来达到更高的准确率,比如 Faster R-CNN 和 Mask R-CNN 就都采用了这样的设计,然后分别在边界框的物体检测以及像素级实例分割任务中取得了优秀的表现。在 COCO 数据集的物体检测竞赛中霸榜的正是这类方法。

  有一些近期的边界框物体检测器抛弃了第二阶段的优化过程,完全关注直接预测滑动窗口,比如 SSD、Y YOLO 和 RetinaNet(同样来自何恺明组,解读文章见这里),这些方法不仅重新引发了关注,也带来了令人期待的结果。相比之下,我们并没能见到什么单阶段方法在像素级实例分割任务中做出大的改进,达到 SSD、RetinaNet 那样级别的性能。为什么边界框预测中单阶段密集检测方法那么火热,但却没有怎么在实例分割中见到呢?这个问题从基础科研角度非常地令人好奇。这项研究的目标就是解答这个问题,并为单阶段密集实例分割的探索做一些基础工作。

  作者们的主要发现是,定义密集遮罩表征的核心概念,以及这些概念在神经网络中的高效实现方法都是缺乏的。边界框有固定的、尺度无关的低维表征,相比之下,分割遮罩可以从更丰富、更结构化的表征中受益。举例说明,每个遮罩自己就是一个二维空间映射图,使用更大的二维空间映射图也可以让更大目标的遮罩受益。如果想要让密集实例分割变得可能,为密集遮罩开发高效的表征是关键的一步。

  为了解决这个问题,作者们在这篇论文中定义了一系列用高维张量表征遮罩的核心概念,接下来也就可以借助这些概念探索用于密集遮罩预测的新网络架构。为了展示这种新的表征的优势,作者们展示了数种可能的网络架构并进行了实验。作者们把提出的框架称为「TensorMask」,基于它,作者们建立了第一个表现可以比拟 Mask R-CNN 的基于滑动窗口的单阶段密集实例分割系统。

  TensorMask 表征的关键思想是使用结构化的四维向量,在中间域中表征遮罩。DeepMask 和 InstanceFCN 等之前的研究针对的是一个类似的问题,对未知类别的对象位置候选区域进行分割,它们都使用的是非结构化的三维张量,其中把遮罩打包进了第三层的「通道」坐标。与表征对象位置的坐标不同,通道坐标中没有明确的图形含义,也就很难操作。由于这些方法中使用了很基本的通道表征,他们也就失去了使用结构化的数组把遮罩表示为二维实体、从而获得改善的机会;这一区别就像是多层感知机和卷积网络中表征二维图像的区别一样。

  与之前这些面向通道的方案不同,这篇论文的作者们提出的方法运用了形状(V,U,H,W)的四维矩阵,其中(H,W)表示对象的位置,(V,U)表示遮罩的相对位置,这四者都是几何子张量,也就是说,它们都具有定义完善的坐标轴,也都带有关于图像的几何信息。这种做法把用非结构化的坐标编码遮罩替换为使用结构化的几何子张量,也就让定义新的运算和网络结构变得可能。新定义的网络可以直接在(V,U)子张量上运算,利用其中的几何信息,包括协调变换、上下采样以及使用尺寸金字塔。

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法 - 后花园网文 - 科技新闻

  左图:自然表征。右图:TensorMask 使用的层间对齐表征

  通过引入TensorMask 框架,作者们基于一组按大小排列的四维张量开发了一个金字塔结构,并把它称作张量双金字塔。传统的特征金字塔是一组不同尺寸的特征图列表,相比之下,张量双金字塔包含了一系列四维张量,尺寸从(V,U,H,W)到(2kV,2kU,1/2k H,1/2k W),其中 k 表示尺寸索引。这种结构可以让(H,W)和(V,U)两组几何子张量分别形成金字塔形,不过两者的缩放方向相反。这是一种很自然的设计,对应了理想中较大的对象需要高分辨率的遮罩,但空间位置变化较少(较大的 k 值),以及较小的对象只需要低分辨率的遮罩,但空间位置就较为细分(较小的 k 值)。

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法 - 后花园网文 - 科技新闻

  作者们把这些组件融合进参考 RetinaNet 设计的网络主干和训练过程中,新提出的密集遮罩预测器也就可以拓展网络中原先的边界框预测器的功能。作者们仔细设计了多组对照实验,在其中评估了TensorMask 框架的有效性,并展示了显式地捕捉几何结构这一设定的重要性。最后,作者们也把TensorMask 和 Mask R-CNN 的结果进行了对比。这些令人欣喜的结果都表明,论文中提出的框架已经为单阶段密集滑动窗口实例分割的未来研究铺平了道路。

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法 - 后花园网文 - 科技新闻

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法 - 后花园网文 - 科技新闻

  TensorMask 和 Mask R-CNN 的分割结果对比,网络主干是ResNet-101-FPN —— 作者们自信地表示,两者结果定性和定量的相似度都很高,他们邀请大家猜猜哪些结果是TensorMask 的,哪些是 Mask R-CNN 的。

何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法 - 后花园网文 - 科技新闻

  在 COCO 上的定量实验表明,Mask R-CNN 仍然取得了更高的 mAP 成绩,这并不令人意外。不过,TensorMask 目前也并没有运行速度优势,ResNet-101-FPN 主干的TensorMask 在英伟达 V100 GPU 上的运行速度为 0.38 秒每图像(Mask R-CNN 只有 0.09 秒每图像)。作者们的解释是,TensorMask (作为单阶段方法)在密集的滑动窗口中(数量大于 100k)预测遮罩造成了很高的计算开销,相比之下Mask R-CNN (作为双阶段方法)只需要在第二阶段选择出的窗口中预测遮罩,需要预测的窗口数量很可能不大于 100 个。作者们表示,加速的办法自然是有的,不过这篇论文的目的是完善基础、探路,加速优化的办法另外再谈。

  论文原文(更多细致的对照实验,大量对比图)见:https://arxiv.org/abs/1903.12174

  雷锋网 AI 科技评论编译。

  

雷锋网』的更多其他内容(随机显示)

01、大众进军纯电动背后:三电技术究竟处于什么水平?

2019/4/3 0:25:37

02、内存融合基础架构发明者MemVerge宣布完成2450万美元A轮融资

2019/4/2 22:55:35

03、5G时代将至,零售商该如何应对?

2019/4/2 19:57:05

04、被锤子耽误的钱晨,去百度搞智能音箱了

2019/4/2 19:55:36

05、“快陪练”获1000万美元Pre-A轮融资,单月营收破千万,俞敏洪跟投

2019/4/2 18:56:16

06、中科院AI医学影像新成果:人工智能可为肝癌患者无创分级

2019/4/2 16:55:54

07、李彦宏谈“智能网联汽车发展三大境界”,最后一公里自动驾驶更早到来

2019/4/2 16:25:38

08、追一科技完成C轮4100万美元融资,用于AI技术、产品研发投入

2019/4/2 15:56:37

09、我国AI医学影像新成果:人工智能可为肝癌患者无创分级

2019/4/2 15:55:39

10、亿智科技完成英特尔投资领投的Pre-A轮融资,二季度量产AI芯片

2019/4/2 10:47:46

11、英特尔“无缝”双GPU X2暂定2020年6月31日发布,性能令人惊叹

2019/4/1 21:47:35

12、今日,英伟达发布惊天 AI 神器

2019/4/1 21:47:35

13、百度、长沙加码自动驾驶,湖南阿波罗智行科技公司成立

2019/4/1 19:47:35

14、志翔科技用大数据技术为行业云构建“安全之翼”

2019/4/1 16:48:18

15、北京自动驾驶路测报告公布:测试排名只是表面,解读百度领跑背后

2019/4/1 16:18:22

16、先科蓝后恒生,蚂蚁金服持续加码传统金融toB服务

2019/4/1 15:17:41

17、这张图里的玄机 可能99%的人猜不到

2019/4/1 12:48:45

18、西湖论剑成长史丨从萌芽破土到枝繁叶茂

2019/4/1 12:48:11

19、缓解电动车的里程焦虑,蔚来NIO Power是怎么做的?

2019/3/31 20:47:53

20、首批区块链信息服务备案清单出炉,共197个服务在列

2019/3/31 20:25:50

21、轻度体验威马Living Pilot智行辅助系统:前期刺激,后期依赖

2019/3/31 13:17:59

22、物流×科技,易流如何用IoT技术加速物流业数字化升级?

2019/3/31 10:17:38

23、对话依图医疗方骢:全栈式AI技术是医疗产业升级的核心要素

2019/3/31 0:49:29

24、关于 AI 的应用与实践,腾讯 AI 研究员做了以下思考

2019/3/29 20:49:14

25、首批吃螃蟹!35 所高校获批开设「人工智能」本科专业

2019/3/29 20:48:20

26、借力 AI 转型的猎豹:身在 To C,心在 To B

2019/3/29 20:47:42

27、腾讯科恩首次发布量产特斯拉安全研究结果:可第三方操控特斯拉行驶方向

2019/3/29 14:19:53

28、大华股份殷俊:AI安防进入成熟期后,“产品应用体验”的价值显然大于技术

2019/3/29 12:49:54

29、解读中兴通讯2018年度财报六个重点:退无可退,唯有一搏

2019/3/29 12:17:57

30、比亚迪发布九款新车 首次展示L4技术和BNA升级架构

2019/3/29 12:17:56

31、晓羊教育获1.5亿元B轮融资,已覆盖1600所学校,新东方领投

2019/3/29 0:47:57

32、飞利浦医疗收购Direct Radiology,加强远程放射学服务能力

2019/3/29 0:19:15

33、年报解读 建设银行能继续在普惠金融的路上一骑绝尘吗?

2019/3/28 21:19:06

34、领投 BLUE Mobile C 轮融资,蚂蚁金服整合东南亚生态布局

2019/3/28 21:17:53

35、触景LEAN AI新品激活平安中国:盾悟II/结构化服务器/双目读头/电警

2019/3/28 20:17:45

36、智能家居:以ZigBee技术实现控制器设计

2019/3/28 15:20:20

37、UC浏览器(国际)被曝中间人攻击(MITM)漏洞,官方回应:已修复,国内版不受影响

2019/3/28 13:48:48

38、名副其实双冠军 iQOO全平台销售成绩喜人

2019/3/28 13:48:07

39、香港虚拟银行牌照正式落地,众安、京东数科、携程金融首批入局,五位空缺待定

2019/3/27 20:48:24

40、讣告 知网发明人董振东教授因病逝世,享年82岁

2019/3/27 20:48:07

41、葡萄英语完成1.5亿元天使轮融资,公司“AI+”战略将聚焦少儿英语和分级阅读

2019/3/27 19:17:53

42、触景无限CEO肖洪波:冗杂的AI安防行业,需追寻“精益之道”

2019/3/27 16:48:33

43、用大数据卖汉堡,麦当劳3亿美元收购大数据创业公司

2019/3/27 15:18:05

44、百胜软件黄飞:携手阿里云,用双中台驱动新零售

2019/3/27 12:48:02

45、拉卡拉成功过会 ,预计上半年登陆A股创业板

2019/3/26 22:18:40

46、大力神托起天幕:Atlas带来的智算风暴

2019/3/26 15:19:11

47、宜人贷调整:P2P平台宜信惠民整合进入上市公司体系

2019/3/26 14:47:57

48、Live回顾 独角兽一起教育科技解码——「AI+教育」在K12领域如何落地?

2019/3/26 12:49:47

49、激光雷达销量突破3万台后,求变的Velodyne要如何在ADAS市场争先?

2019/3/26 12:18:26

50、宜人贷2018财报:Q4净收入较同期降30%,COO兼CTO曹阳将离职

2019/3/26 12:18:03