近千片段、25种类别,阿里等开源遮挡场景的视频实例分割数据集
最近,来自阿里、华中科大、牛津等机构的研究者公开了一个针对强遮挡场景的大型视频实例分割数据集 OVIS。实验表明,该数据集非常适合用来衡量算法对于遮挡场景的处理能力。
- 作者:机器之心来源:机器之心Pro|2021-02-23 10:04
最近,来自阿里、华中科大、牛津等机构的研究者公开了一个针对强遮挡场景的大型视频实例分割数据集 OVIS。实验表明,该数据集非常适合用来衡量算法对于遮挡场景的处理能力。
对于被遮挡的物体,人类能够根据时序上下文来识别,定位和追踪被遮挡的物体,甚至能脑补出物体被遮住的部分,那么现有的深度学习方法对遮挡场景的处理能力如何呢?
为了探究这个问题,来自阿里、华中科大、牛津等多个机构的研究者构建了一个针对强遮挡场景的大型视频实例分割数据集 Occluded Video Instance Segmentation (OVIS)。
论文地址:https://arxiv.org/abs/2102.01558
项目主页:http://songbai.site/ovis/
视频实例分割 (Video Instance Segmentation, VIS) 要求算法能检测、分割、跟踪视频里的所有物体。与现有 VIS 数据集相比,OVIS最主要的特点就是视频里存在大量的多种多样的遮挡。因此,OVIS 很适合用来衡量算法对于遮挡场景的处理能力。
实验表明,现有方法并不能在强遮挡场景下取得令人满意的结果,相比于广泛使用的 YouTube-VIS 数据集,几乎所有算法在 OVIS 上的指标都下降了一半以上。
OVIS 数据集简介
研究者一共采集了近万段视频,并最终从中挑选出了 901 段遮挡严重、运动较多、场景复杂的片段,每段视频都至少有两个相互遮挡的目标对象。其中大部分视频分辨率为 1920x1080,时长在 5s 到 60s 之间。他们按每 5 帧标注一帧的密度进行了高质量标注,最终得到了 OVIS 数据集。
OVIS 共包含 25 种生活中常见的类别,如下图所示,其中包括人、交通工具以及动物。这些类别的目标往往处于运动状态,因而也更容易发生严重的遮挡。此外,OVIS 的 25 个类别都可以在大型的图片级实例分割数据集(MS COCO、LVIS、Pascal VOC 等)中找到,以方便研究人员进行模型的迁移和数据的复用。

OVIS 数据集特性
OVIS 包含 5223 个目标对象的 296k 个高质量 mask 标注。相比先前的 Youtube-VIS 数据集,OVIS 拥有更多的 mask 和更多的目标对象。研究者牺牲了一定的视频段数来标注更长更复杂的视频,以让它更具挑战性。
与先前其他 VIS 数据集相比,OVIS 最大的特点在于严重的遮挡。为了量化遮挡的严重程度,研究者提出了一个指标mean Bounding-box Overlap Rate (mBOR)来粗略地反映遮挡程度。mBOR 指图像中边界框重叠部分的面积占所有边界框面积的比例。从下表中可以看出,相比于 YouTube-VIS,OVIS 有着更严重的遮挡。
值得注意的是,除去上面提到的基础数据统计量,OVIS 在视频时长、物体可见时长、每帧物体数、每段视频物体数等统计量上都显著高于 YouTube-VIS,这与实际场景更为相近,同时也进一步提高了 OVIS 的难度。

可视化
OVIS 数据集中包含多种不同的遮挡类型,按遮挡程度可分为部分遮挡和完全遮挡;按被遮挡场景可分为被其他目标对象遮挡、被背景遮挡以及被图片边界遮挡。不同类型的遮挡可能同时存在,物体之间的遮挡关系也比较复杂。
如下图视频片段中,两只熊既互相部分遮挡,有时也会被树(背景)遮挡。

又如下图视频片段中,绿车和蓝车分别逐渐被白车和紫车完全遮挡,后来又逐渐出现在视野中。

从下图可视化片段中也可以看出 OVIS 的标注质量很高,研究者对笼子网格、动物毛发都做了精细的标注。

更多可视化片段参见项目主页。
实验
研究者在 OVIS 上尝试了 5 种开源的现有算法,结果如下表所示。可以看到 OVIS 非常具有挑战性。使用同样的评价指标,MaskTrack R-CNN 在 Youtube-VIS 验证集上 mAP 能达到 30.3,在 OVIS 验证集上只有 10.9;SipMask 的 mAP 也从 Youtube-VIS 上的 32.5 下降到了 OVIS 上的 10.3。5 个现有算法中,STEm-Seg 在 OVIS 上效果最好,但也只得到了 13.8 的 mAP。

总结
研究者针对遮挡场景下的视频实例分割任务构建了一个大型数据集 OVIS。作为继 YouTube-VIS 之后的第二个视频实例分割 benchmark,OVIS 主要被设计用于衡量模型处理遮挡场景的能力。实验表明 OVIS 数据集给现有算法带来了巨大的挑战。未来还将把 OVIS 推广至视频物体分割 (VOS) 以及视频全景分割 (VPS) 等场景,期待 OVIS 能够启发更多研究人员进行复杂场景下视频理解的研究。
更多细节请见论文。
【编辑推荐】
点赞 0
- 大家都在看
- 猜你喜欢
编辑推荐
- 24H热文
- 一周话题
- 本月获赞
- 为什么CTO、技术总监、架构师都不写代码,还这么牛?Python30岁,先驱:没想到Python这么流行竟能让照片人物动起来唱歌!这AI黑科技被玩坏了996加班骗局被揭穿,背后真相值得深思!金刚狼战士:美军研发细胞「重新编程」技术,是自愈速度的5倍Gartner 2021 年数据和分析领域十大趋势这个图聚类Python工具火了:社群结构可视化、检测开源开发者的真正价值几何?经济学家给出答案
- 996加班骗局被揭穿,背后真相值得深思!为什么CTO、技术总监、架构师都不写代码,还这么牛?竟能让照片人物动起来唱歌!这AI黑科技被玩坏了我对技术架构的理解与架构师角色的思考为什么要学习更多的编程语言?同时认为 Go 是最佳2021十大科技前沿趋势详解三大编译器:gcc、llvm 和 clang都2021年了,为什么想回看5分钟前写的代码就这么难
- 我对技术架构的理解与架构师角色的思考为什么伟大程序员没有中国人?996加班骗局被揭穿,背后真相值得深思!详解三大编译器:gcc、llvm 和 clang为什么CTO、技术总监、架构师都不写代码,还这么牛?5个开源的Java项目快速开发脚手架,项目经验有了她因重仓马斯克和比特币封神!现在分享了十大2021技术趋势数据分析师必备的9大技能,大多数人只知道一半
订阅专栏+更多
-
数据湖与数据仓库的分析实践攻略
助力现代化数据管理:数据湖与数据仓库的分析实践攻略共3章 | 创世达人6人订阅学习
-
云原生架构实践
新技术引领移动互联网进入急速赛道共3章 | KaliArch33人订阅学习
-
数据中心和VPDN网络建设案例
漫画+案例共20章 | 捷哥CCIE220人订阅学习
视频课程+更多
-
老汤大数据课程之 Hadoop 3
讲师:老汤929人学习过
-
【范昌明】从零开始系列-Project 2010视频课
讲师:范昌明197050人学习过
-
软件测试全栈系列课程
讲师:陈槐2408人学习过
专题推荐+更多
- 精选博文
- 论坛热帖
-
订阅51CTO邮刊
点击这里查看样刊

51CTO服务号

51CTO官微