原标题:腾讯开源业内最大多标签图像数据集,附ResNet-101模型

原标题:小蓦早资讯:李飞飞离职谷歌,工作重心将重新转回学术界

机器之心发布

允中 发自 凹非寺

图片 1

不久之前,

鹅厂福利,又是开源。

#新闻#

CVPR 2019 接收论文公布

最迟本月月底,腾讯AI Lab将开源“Tencent ML-Images”项目。

李飞飞离职谷歌,工作重心将重新转回学术界

:在超过 5100 篇投稿中,共有 1300 篇被接收,接收率达
25.2%。本文介绍了京东AI研究院被接受的一篇 Oral
论文,作者从优化的角度出发,通过实验解释了梯度稳定手段之一的 BatchNorm
是如何帮助随机初始化训练一阶段检测器 SSD,进而结合了 ResNet 与 VGGNet
来加强对小物体的检测。值得一提的是,本文第一作者朱睿还是一位大四学生,就读于中山大学数据科学与计算机学院,现于京东
AI 研究院视觉与多媒体实验室实习。

不仅要开源多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101。

谷歌云官方博客发布文章称,目前担任谷歌云AI/ML首席科学家的李飞飞将重返斯坦福大学,转为担任谷歌云AI/ML顾问,卡耐基梅隆大学计算机学院院长Andrew
Moore将负责谷歌云AI业务。李飞飞2016年11月加入谷歌,在担任谷歌云 AI/ML
首席科学家的同时,李飞飞还担任斯坦福大学副教授、斯坦福 AI
实验室负责人。

使用 ImageNet
预训练的网络模型能够帮助目标任务(物体检测、语义分割、细粒度识别等)快速收敛,然而使用预训练模型会带来诸多限制,其中一个问题就是改动特征提取网络的结构成本相对较高,需要耗时巨大的重新预训练来适应不同需求的任务。那么,如果不使用预训练模型,进行随机初始化训练,达到较高准确率的某些必要条件是什么?

图片 2

彭博社曝光苹果发布会信息 推8款产品

机器之心发布

业内最大规模

图片 3

不久之前,

值得注意的是,这次开源的ML-Images包含了1800万图像和1.1万多种常见物体类别,在业内已公开的多标签图像数据集中,规模最大,一般科研机构及中小企业的使用场景,应该够了。

9月10日消息,日前,彭博社曝光了苹果将在发布会推出的所有产品。其中包括三款新手机:5.8英寸的iPhone
X升级版,或命名为“iPhone Xs”;6.5英寸的iPhone X放大版,或命名为“iPhone
Xs Max”;6.1英寸的iPhone X低价版,或命名为“iPhone
Xr”。据报道,苹果还将推出具备更大显示屏的新款苹果手表、一款14英寸视网膜屏幕的低价位笔记本电脑,两款采用窄边框和高屏占比设计的iPad
Pro,此外,还将对盒式电脑Mac Mini进行升级。

CVPR 2019 接收论文公布

此前,业内公开的最大规模的多标签图像数据集是谷歌公司的Open Images,
包含900万训练图像和6000多物体类别。

腾讯AI Lab开源多标签图像数据集项目

:在超过 5100 篇投稿中,共有 1300 篇被接收,接收率达
25.2%。本文介绍了京东AI研究院被接受的一篇 Oral
论文,作者从优化的角度出发,通过实验解释了梯度稳定手段之一的 BatchNorm
是如何帮助随机初始化训练一阶段检测器 SSD,进而结合了 ResNet 与 VGGNet
来加强对小物体的检测。值得一提的是,本文第一作者朱睿还是一位大四学生,就读于中山大学数据科学与计算机学院,现于京东
AI 研究院视觉与多媒体实验室实习。

所以一旦腾讯ML-Images开源,毫无疑问将成为业内规模最大。

9月10日,腾讯AI
Lab宣布将于9月底开源“Tencent
ML-Images”项目,该项目由包括1800万训练图像和1.1万多常见物体类别的多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101构成。除了数据集,腾讯AI
Lab团队还将在此次开源项目中详细介绍:大规模的多标签图像数据集的构建方法、基于ML-Images的深度神经网络的训练方法、基于ML-Images训练得到的ResNet-101模型。

使用 ImageNet
预训练的网络模型能够帮助目标任务(物体检测、语义分割、细粒度识别等)快速收敛,然而使用预训练模型会带来诸多限制,其中一个问题就是改动特征提取网络的结构成本相对较高,需要耗时巨大的重新预训练来适应不同需求的任务。那么,如果不使用预训练模型,进行随机初始化训练,达到较高准确率的某些必要条件是什么?

不过腾讯方面认为,不光是数量规模上够诚意,在项目细节上,也都颇为用心:

#出行#

本文介绍了我们今年的 CVPR Oral 工作《ScratchDet: Exploring to Train
Single-Shot Object Detectors from
Scratch》,作者从优化的角度出发,通过实验解释了梯度稳定手段之一的
BatchNorm 是如何帮助随机初始化训练一阶段检测器 SSD,进而结合了 ResNet 与
VGGNet 来加强对小物体的检测。

大规模的多标签图像数据集的构建方法,包括图像的来源、图像候选类别集合、类别语义关系和图像的标注。在ML-Images的构建过程中,团队充分利用了类别语义关系来帮助对图像的精准标注。

马斯克称特斯拉车机将推出简要模式

文章的代码后续会公布到
contribute 到 mmdetection 中。

基于ML-Images的深度神经网络的训练方法。团队精心设计的损失函数和训练方法,可以有效抑制大规模多标签数据集中类别不均衡对模型训练的负面影响。

9月10日消息,马斯克日前在推特上表示,特斯拉将在V9车载操作系统中加入Fade模式,使汽车屏幕仅显示必要信息。去掉令人分心的视觉元素,能使驾驶员将注意力集中放到驾驶上。

论文地址:

基于ML-Images训练得到的ResNet-101模型,具有优异的视觉表示能力和泛化性能。通过迁移学习,该模型在ImageNet验证集上取得了80.73%的top-1分类精度,超过谷歌同类模型(迁移学习模式)的精度,且值得注意的是,ML-Images的规模仅为JFT-300M的约1/17。这充分说明了ML-Images的高质量和训练方法的有效性。详细对比如下表。

劳斯莱斯前设计总监加入一汽担任CCO

动机

图片 4

9月10日消息,据彭博社报道,劳斯莱斯前设计总监贾尔斯·泰勒已正式加入一汽,担任集团全球设计副总裁兼首席创意官。加入一汽后,泰勒将主要负责一汽红旗品牌的设计策略和风格理念。他将带领一汽在慕尼黑建立一个新的设计中心,组建一支全球化的高端设计团队。该中心将承担中国一汽红旗品牌前瞻造型项目和量产造型项目的设计工作,泰勒将监督使国际化的设计理念注入一汽包括乘用车在内的一系列产品中。

现有的检测训练任务存在三个限制:

(注:微软ResNet-101模型为非迁移学习模式下训练得到,即1.2M预训练图像为原始数据集ImageNet的图像。)

英国首个纯电动飞行的士试飞成功

分类任务与检测任务的 Learning bias:
一方面是两者损失函数的不同,一方面是两者对平移不变性的敏感度不同,还有另外一方面是数据集的差异:ImageNet
数据集是单图单物体,COCO & PASCAL VOC 数据集是单图多物体。

ResNet-101模型

9月10日消息,据外媒报道,英国首个纯电动飞行的士eVTOL完成了首次短途试飞。该飞行的士由创企Vertical
Aerospace生产,可垂直起降,采用纯电驱动,最高飞行时速可达每小时80英里。Vertical
Aerospace公司位于英国布里斯托尔,今年6月,该公司获得英国管制当局的试飞批准。Vertical
Aerospace公司飞行汽车计划在城市间运行,从而与短途飞机和火车竞争。据悉,虽然首次试飞成功,但至少在未来四年时间里,eVTOL都无法投入商用。

如果想要改动检测模型中的特征提取网络的结构,需要对网络重新预训练再进行检测任务的
finetune,而 ImageNet 预训练实验的代价比较大。这个问题在移动端、CPU
实时检测器等设计中尤为突出,比如:Pelee,Tiny-SSD,YOLO-LITE,Fire-SSD,Tiny-YOLO,Tiny-DSOD,MobileNetV2
等等。常用的 VGG-16、ResNet
的计算量以及参数量对于移动端的负载较大,而设计小网络的每次修改都需要重新在
ImageNet 上重新预训练,时间代价与计算资源消耗都比较大。再比如像
DetNet,想要设计一种专用于检测的网络,用在 ImageNet
预训练的实验就要花很多的时间。

而同时提供的深度残差网络ResNet-101,是腾讯AI
Lab基于ML-Images训练得到的。

自动驾驶帆船首次成功横渡大西洋

Domain Transfer 问题,比如从 ImageNet
自然与生活场景图像迁移到医疗图像中(X
光图,核磁共振图)的癌症检测、卫星图像检测(You Only Look
Twice)是否有用,不同域之间的迁移是否仍然能发挥作用?

腾讯方面介绍,该模型具有优异的视觉表示能力和泛化性能,在当前业内同类模型中精度最高,将为包括图像、视频等在内的视觉任务提供强大支撑,并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。

9月10日消息,据报道,SB
Met号成为了世界上第一艘横渡大西洋的自动驾驶帆船。SB
Met号6月7日参加Microtransat挑战赛,从大西洋西侧的加拿大纽芬兰出发,经过80天的漫长航行,航程5100公里,最终抵达北爱尔兰海域,书写了首次自动驾驶帆船横跨大西洋的历史。SB
Met号来自一家名叫Offshore Sensing
AS的自动驾驶帆船公司,其运行原理与自动驾驶汽车类似,即通过传感器扫描周围环境,然后将数据传送给AI系统进行指挥。

分析

“Tencent
ML-Images”项目的深度学习模型,目前已在腾讯多项业务中发挥重要作用,如“天天快报”的图像质量评价与推荐功能。

Ask Mor返回搜狐,查看更多

早期讨论随机初始化训练的工作 DSOD 将必要条件归结到一阶段检测器和
DenseNet 的 dense layer wise connection
上,但是这样做很大程度限制了网络结构的设计。我们想找到随机初始化训练检测器的某些本质的原因。受到
NeurIPS2018《How Does Batch Normalization Help
Optimization?》这篇文章的启发,通过理论和实验说明 BN
在优化过程中发挥的作用:

比如,天天快报新闻封面图像的质量得到明显提高。

责任编辑:

梯度更加稳定,更加可预测。

图片 5

计算梯度时可采用更大的步长,即更大的学习率来加速训练。

此外,腾讯AI Lab团队还将基于Tencent
ML-Images的ResNet-101模型迁移到很多其他视觉任务,包括图像物体检测,图像语义分割,视频物体分割,视频物体跟踪等。

防止 loss
函数解空间突变,既不会掉入梯度消失的平坦区域,也不会掉入梯度爆炸的局部最小。

这些视觉迁移任务进一步验证了该模型的强大视觉表示能力和优异的泛化性能。“Tencent
ML-Images”项目未来还将在更多视觉相关的产品中发挥重要作用。

沿着这个思路我们在 SSD300 检测框架上给 VGG 网络与检测子网络分别加上了 BN
来进行随机初始化训练(PASCAL VOC 07+12 训练,07
测试),调整学习率之后,得到的最好结果 78.7mAP,比直接随机初始化训练 SSD
的结果高 11.6,比原 SSD300高 1.5,比使用预训练模型 VGG-16-BN高
0.6。实验细节在论文的实验部分有描述。

当然,最后顺路一提,鹅厂近年来在开源方面真是越干越勇。

图片 6

自2016年首次在GitHub上发布开源项目(

图1/6

嗯,好事情,再接再厉~

从左到右的 3 幅图分别是训练 loss,梯度的 L2
Norm,梯度的波动程度。通过这三幅图能够从优化角度分析,为什么 BN
能够帮助随机初始化训练检测器,蓝色曲线代表直接对 SSD 使用 0.001
的学习率做随机初始化训练,红色曲线在蓝色曲线的基础上在 VGG 网络上加了
BN,绿色曲线在红色曲线的基础上使用了 10
倍的学习率。可以看到:从蓝色到红色,给特征提取网络添加了 BN
之后,梯度的波动程度大幅下降,梯度趋于稳定,优化空间更加平滑,训练 loss
下降,mAP 从 67.6 升高到
72.8。而从红色到绿色,平滑的优化空间允许使用更大的学习率,loss
进一步下降,mAP 也从 72.8 升高到 77.8。我们在检测子网络(detection
head)也做了一样设置的实验,得出了相似的结论与梯度分析图,具体请参考论文。

—返回搜狐,查看更多

图片 7

责任编辑:

图2/6

我们在 SSD300 上做了尽可能详细的对比实验,包括在 3 个不同学习率(0.001,
0.01, 0.05)下给特征提取子网络添加 BN,给检测子网络(detection
head)添加 BN,给全部网络添加 BN,给全部网络不添加
BN,以上四者的随机初始化训练以及对比预训练 fine-tune
实验。可以看到,在为整个检测网络的不同部分添加 BN
之后会有不同程度的提升,而提升最高的是为整个网络添加 BN,在 VOC2007
测试集上(使用 VOC07+12 trainval 训练)可以达到 78.7mAP。

借着随机初始化训练带来的优势,可以对特征提取网络进行任意改动。之后我们借鉴了
VGGNet 和 ResNet
的优点,最大程度保留原图信息,来提升对小物体检测的性能(论文中输入图像大小是
300X300,小物体较多)。

分析 ResNet 和 VGGNet 的优缺点

在 SSD 的升级版论文 DSSD 中,我们将 SSD 的特征提取网络从 VGG-16 替换成了
ResNet-101,所得实验结果汇总如下表:

图片 8

图3/6

ResNet-101 在 ImageNet 的 top-5 error 上比 VGG-16 低了 2.69%,但是在
SSD300-VOC 的结果却低于 VGG-16,为什么?跟 VGG-16 相比,ResNet-101
的优点是分类能力强,缺点是对小物体识别能力较差,因为第一个卷积层的
stride=2,在初始输入的图片上就进行下采样,会损失某些原图信息,尤其是小物体的信息。

1) 在 VOC_300 时,ResNet-101
的缺点>优点,输入图片较小,图片中小物体数目变多,缺点被放大;且类别只有
20 类,不能发挥 ResNet 强大的分类能力,在 SSD 上结果低于 VGG-16。

2) 在 VOC_512 时,ResNet-101 的缺点

3) 在 COCO 上时,ResNet-101 的缺点

当然这里的结论需要进一步结合数据集本身的特性来验证,比如数据集规模 vs
模型参数量,数据集每张图片平均的 instance
数目,数据集小物体数量等等因素。

图片 9

图4/6

因此我们借鉴了 ResNet 与 VGGNet 的优点,首先把 ResNet 的第一个卷积层的
stride 从 2 改成 1,也就是取消第一个下采样操作,并且参照了 DSOD
的方法,替换第一个卷积层为 3 个 3×3
卷积层:这样做的目的是,尽可能保持原图信息不损失,并且充分利用。注意:在将新网络替换到
SSD
框架上时,仍然最大程度保证实验的公平性。首先,用于检测的特征图在论文中保持
38×38, 19×19, 10×10, 5×5, 3×3, 1×1
的大小,并没有使用大的特征图;其次,保证每个用于检测的特征图的 channel
数目相同。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章