谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了-罗盘报中文网

本篇文章1371字，读完约3分钟

编者按:这篇文章发表在谷歌博客上，原标题是“宣布YouTube-8m:一个用于视频理解研究的大而多样的标记视频数据集”

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

Youtube在全球拥有超过10亿用户，每秒上传的视频都是在几个小时内完成的。随着视频语料库的不断增加，需要一个推荐系统来及时准确地向用户推荐用户感兴趣的视频。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

近年来，在机器学习和机器感知领域取得了许多突破，这只是借助于大型注释数据集，如imagenet，这是世界上最大的图像识别数据库，其中包含数百万个分为数千种类型的注释图像。这些图像识别数据库的可用性增加了图像理解领域的研究，例如检测和分类静态图像中的对象。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

最近，谷歌在其博客中宣布，它已经发布了一个大型视频数据集YouTube-800万。它包含800万个youtube视频的网址，代表长度为50万小时的视频和视频标签。这些注释来自4800个知识图实体的不同集合。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

与现有的视频数据集相比，youtube-8m的规模和多样性都有了显著提高。Sports-1m是过去最大的视频数据集，包含约100万个youtube视频和500个体育领域类别。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

要创建大规模的标注视频数据集，需要解决两个关键问题:

视频标注比图像标注耗时更长。(如果是手动标记)

2.处理和存储视频的计算成本非常高。

为了解决第一个问题，谷歌使用了youtube和它的视频注释系统。该系统可以快速确定所有公共youtube视频的高度相关的知识地图主题。这些注释是由机器生成的，这些机器集成了来自数百万用户的强大用户参与信号和视频元数据的内容分析。因此，标注的质量非常高，可以达到视频分析研究和标准制定的目的。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

如何确保该视频数据集的稳定性和高质量？谷歌已经使用了1000多个公开的评论视频，并创造了一个多样化的实体词汇。这些内容都是可视化的，并且经常出现。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

从下图中，我们可以看到数量集的规模和多样性:

顶层垂直类别中数据浏览器的视频分发

数据浏览器允许浏览和搜索整个知识地图的实体词汇表，该词汇表被分成24个顶级垂直类别，包括相应的视频。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

标有指南的数据集视频的子集。

在解决第二个问题时，谷歌必须应对制作这些视频时存储和计算资源的压力。为了与youtube 8m的规模相匹配，视频理解通常需要相当于一个cpu在夏天工作几十年的pb级存储和处理能力。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

为了与没有如此高计算资源的研究人员和学生共享这一强大的数据集，谷歌使用深度学习模型对视频进行预处理，并提取帧级特征。这些特征是从19亿个视频帧中提取的，时间分辨率为每秒1帧。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

之后，这些视频将被进一步压缩到可以加载到一个商品级硬盘上的大小(小于1.5 tb)。这使得用户能够在不到一天的时间里在一个gpu上下载所有数据集。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

谷歌在其博客中表示，这一数据集可以极大地加速视频理解，因为它使研究人员和学生能够在不使用大数据和大机器的情况下进行前所未有的研究。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

Youtube的推荐系统一直是业内最复杂、最常用的系统之一。谷歌希望YouTube 800万将刺激视频建模架构和表征学习的新研究，特别是有助于有效处理噪音或不完整标签、迁移学习和领域适应。

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

viagoogleblog

谷歌发布视频界的 ImageNet 这可能是史上最大的数据集了

方正证券：市场将迎来估值和业绩的双升

seo网页优化平台（网站优化seo技术）

时讯:青春力量｜一位女检察官的初心

来自土澳邻居老王的控诉：别让无人机动了我的隐私

日本以比基础价格低5.79美分的价格赢得了中央爪哇岛发电站的竞标

超净工作台使用方法中要注意哪些方面

ICEVE2016大佬观点：VR摄影如何突破摄影难关

80岁踩着高跟鞋也要去创业她说创业需要不安分的基因

高级研修班考试视频讲解

时讯:全球第一张！13810个城市！最完善的世界城市地图

佩洛西访问台湾充满了肮脏和算计

牛客网宣布完成1000万元PreA轮融资

时讯:全面提升互联网安全防护能力

7家教育中概股坚守美股为哪般？

时讯:青桔单车完成意料之中的“逆袭”

人脸识别变身看片神器助宅男用图片来搜色情主播

“《极限挑战》7首播即高潮，雅迪冠能2.0完成综艺首秀”

印度尼西亚政府和议会同意将明年的税率定为12.6%

汽车流通行业分析师李颜伟：葛树文或掌舵上汽大众奥迪

时讯:青海省交通厅原副厅长马忠英已任省供销社理事会副主任