雷锋网 - AI管理个人视频,分享快乐是否更简单?

上一篇(左方向键) 下一篇(右方向键) 回目录(回车键) 粗体(B键)  正常(N键) 随机浏览(S键)   浏览次数:63    发布时间:2019/4/4 21:55:48   出处:雷锋网   
AI管理个人视频,分享快乐是否更简单? - 后花园网文 - 科技新闻

  雷锋网注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】

  如今,人们可以通过录制视频的方式与朋友和爱人分享美好时光,这已经不再是什么新鲜事。然而,每个拥有大量视频素材的人都会告诉你这样一个事实:遍历所有原始视频素材,寻找值得重温,或者适合与家人朋友共享的完美视频片段,是一项十分耗时的工作。

  由于谷歌图片会自动在视频中寻找具有纪念意义的画面,并创建动画,所以,像孩子吹灭蜡烛的瞬间,或者朋友跳进泳池的瞬间,诸如此类的画面都可以被快速捕捉。这样一来,与朋友和家人分享美妙瞬间就容易多了。

  在反复研究了用于时序动作定位(TAL)的R-CNN架构之后,自动化方面的一些难题已解决。这些难题的棘手之处在于,从千万种不同排列的数据中完成辨认或分类。因此,我们建立了TALNet,它能在一定时间内识别大量的短暂性动作。目前来说,相比起其他方法,TALNet完成这个任务的用时最短。它还允许谷歌图片推荐视频的最佳画面,让你可以与朋友和家人分享。

AI管理个人视频,分享快乐是否更简单? - 后花园网文 - 科技新闻

  想要识别视频中的美妙瞬间,第一步是将人们可能希望保留的动作瞬间集合起来,比如吹灭生日蜡烛,猫摇尾巴等。然后,我们将这些带有特定动作的视频片段进行注释,以创建一个大型培训数据库。之后,我们会要求评定员找出并标记所有时刻。最后,模型经过这个带注释的数据集训练,之后就可以在全新的视频中识别所需的瞬间。

  识别这些动作属于计算机视觉领域,它与生活中常见的对象识别一样,属于视觉检测的范畴。然而,TAL的目的是,在一个冗长且未修剪的视频里,标识每个动作的开始和结束时间,并给不同的动作贴上标签(如“吹灭蜡烛”)。它更侧重在一维视频帧序列中捕捉包含动作的时间片段。

  我们使用的TALNet方法是受到了R-CNN二维图像对象检测框架的启发。因此,要理解TALNet,首先要理解R-CNN。下图演示了如何使用R-CNN架构进行对象检测。

AI管理个人视频,分享快乐是否更简单? - 后花园网文 - 科技新闻

  第一步是生成一组对象推荐,可以对图像中的对象进行分类。在此之前,要先通过卷积神经网络(CNN)将输入图像转换为二维特征图。然后,对象推荐网络围绕候选对象生成包围框。这些框是在多个尺度上生成的,以便应对自然图像中对象大小的不确定性。在对象确定之后,使用深度神经网络(DNN)将边界框中的对象分类为特定对象,比如“人”、“自行车”等。

  时序动作定位是用一种类似于R-CNN的方式完成的。首先将视频输入帧序列转换为编码场景的一维特征映射序列。此映射被传递到一个视频段推荐网络,该网络生成候选段,每个候选段由开始和结束时间来定义。然后,DNN对视频片段中的动作进行分类,比如灌篮、传球。

AI管理个人视频,分享快乐是否更简单? - 后花园网文 - 科技新闻

  虽然时序动作定位可以看作是对象检测的一维对应物,但是,处理动作定位有一些值得注意的问题。为了将R-CNN方法应用到动作定位领域,我们特意解决了三个问题,并重新设计了体系结构来专门解决这些问题。

  1.动作在持续时间方面变量更大

  动作执行的时间范围变化很大,可以从几秒钟到几分钟不等。对于长时间的动作,理解动作的每一个框架并不重要。相反,我们可以通过快速浏览视频,使用扩展的时间卷积来更好地处理这个动作。这种方法允许TALNet搜索视频中的动作,同时根据既定的膨胀率跳过交替帧。根据锚段的长度自动选择不同速率的视频进行分析,可以有效地识别大至整个视频或短至一秒的动作。

  2.目标动作前后的内容很重要

  目标动作前后的内容包含了定位和分类的关键信息,这里说的是时间前后,而不是空间前后。因此,我们在时间内容上进行了编码,方法是在推荐生成和分类生成的阶段,将目标段在时间前后上按一定比例扩展。

  3.目标动作需要多模式输入

  目标动作由外观、运动轨迹,有时甚至是音频信息来定义。因此,为了获得最佳的结果,考虑特征的多种形式是很重要的。我们对推荐生成网络和分类网络都使用了一种后期融合方案,其中每种模式都有一个单独的推荐生成网络,这些网络的输出组合在一起才能得到最终的推荐集。

  这些推荐使用单独的分类网络对每种模式进行分类,然后经过综合平均得到最终的预测。由于这些改进,在THUMOS的14检测基准上,TALNet在动作推荐和行动定位方面表现最佳,并在ActivityNet项目中展示了其竞争力。现在,每当人们将视频保存到谷歌图片中时,模型就会开始识别这些视频并创建动画来共享。

  我们正在不断完善,使用更多的数据、特性和模型来提高动作定位的精度。时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平,同时为人们提供更多方式来追忆他们宝贵的记忆。

  雷锋网注:本文编译自Google AI Blog

  【封面图片来源:网站名Google AI Blog,所有者:Sudheendra Vijayanarasimhan and David Ross】

  

雷锋网』的更多其他内容(随机显示)

01、Jitendra Malik 荣获 2019 年 IEEE 计算机先驱奖

2019/4/4 20:55:46

02、平安云亮相英特尔新品发布会,用科技驱动未来

2019/4/4 19:55:30

03、FDA新动作!针对AI医疗器械拟议监管框架

2019/4/4 18:26:11

04、UCloud想吃科创板的“第一个螃蟹”

2019/4/4 12:56:26

05、波士顿动力的第一个工业级解决方案:搬运机器人Pick

2019/4/4 12:25:40

06、以航天标准研制,饮冰携三款激光雷达上演价格战?

2019/4/4 11:55:35

07、为什么康佳80%的云服务都使用微软Azure?

2019/4/4 11:28:05

08、试驾广汽丰田雷凌双擎E+:经典的混合动力技术正被传承

2019/4/4 11:27:02

09、为导航系统而生的惯量传感器,博世推出 MEMS 传感器技术集大成者 SMI230

2019/4/4 11:27:01

10、AI新动态:AI自造AI的速度将提升240倍

2019/4/3 15:26:08

11、74项芯片级能力清单曝光,润和软件HiHope平台重装入场IOT

2019/4/3 13:26:12

12、何恺明组基础理论再突破:媲美双阶段方法的单阶段实例分割算法

2019/4/3 12:27:16

13、大众进军纯电动背后:三电技术究竟处于什么水平?

2019/4/3 0:25:37

14、内存融合基础架构发明者MemVerge宣布完成2450万美元A轮融资

2019/4/2 22:55:35

15、5G时代将至,零售商该如何应对?

2019/4/2 19:57:05

16、被锤子耽误的钱晨,去百度搞智能音箱了

2019/4/2 19:55:36

17、“快陪练”获1000万美元Pre-A轮融资,单月营收破千万,俞敏洪跟投

2019/4/2 18:56:16

18、中科院AI医学影像新成果:人工智能可为肝癌患者无创分级

2019/4/2 16:55:54

19、李彦宏谈“智能网联汽车发展三大境界”,最后一公里自动驾驶更早到来

2019/4/2 16:25:38

20、追一科技完成C轮4100万美元融资,用于AI技术、产品研发投入

2019/4/2 15:56:37

21、我国AI医学影像新成果:人工智能可为肝癌患者无创分级

2019/4/2 15:55:39

22、亿智科技完成英特尔投资领投的Pre-A轮融资,二季度量产AI芯片

2019/4/2 10:47:46

23、英特尔“无缝”双GPU X2暂定2020年6月31日发布,性能令人惊叹

2019/4/1 21:47:35

24、今日,英伟达发布惊天 AI 神器

2019/4/1 21:47:35

25、百度、长沙加码自动驾驶,湖南阿波罗智行科技公司成立

2019/4/1 19:47:35

26、志翔科技用大数据技术为行业云构建“安全之翼”

2019/4/1 16:48:18

27、北京自动驾驶路测报告公布:测试排名只是表面,解读百度领跑背后

2019/4/1 16:18:22

28、先科蓝后恒生,蚂蚁金服持续加码传统金融toB服务

2019/4/1 15:17:41

29、这张图里的玄机 可能99%的人猜不到

2019/4/1 12:48:45

30、西湖论剑成长史丨从萌芽破土到枝繁叶茂

2019/4/1 12:48:11

31、缓解电动车的里程焦虑,蔚来NIO Power是怎么做的?

2019/3/31 20:47:53

32、首批区块链信息服务备案清单出炉,共197个服务在列

2019/3/31 20:25:50

33、轻度体验威马Living Pilot智行辅助系统:前期刺激,后期依赖

2019/3/31 13:17:59

34、物流×科技,易流如何用IoT技术加速物流业数字化升级?

2019/3/31 10:17:38

35、对话依图医疗方骢:全栈式AI技术是医疗产业升级的核心要素

2019/3/31 0:49:29

36、关于 AI 的应用与实践,腾讯 AI 研究员做了以下思考

2019/3/29 20:49:14

37、首批吃螃蟹!35 所高校获批开设「人工智能」本科专业

2019/3/29 20:48:20

38、借力 AI 转型的猎豹:身在 To C,心在 To B

2019/3/29 20:47:42

39、腾讯科恩首次发布量产特斯拉安全研究结果:可第三方操控特斯拉行驶方向

2019/3/29 14:19:53

40、大华股份殷俊:AI安防进入成熟期后,“产品应用体验”的价值显然大于技术

2019/3/29 12:49:54

41、解读中兴通讯2018年度财报六个重点:退无可退,唯有一搏

2019/3/29 12:17:57

42、比亚迪发布九款新车 首次展示L4技术和BNA升级架构

2019/3/29 12:17:56

43、晓羊教育获1.5亿元B轮融资,已覆盖1600所学校,新东方领投

2019/3/29 0:47:57

44、飞利浦医疗收购Direct Radiology,加强远程放射学服务能力

2019/3/29 0:19:15

45、年报解读 建设银行能继续在普惠金融的路上一骑绝尘吗?

2019/3/28 21:19:06

46、领投 BLUE Mobile C 轮融资,蚂蚁金服整合东南亚生态布局

2019/3/28 21:17:53

47、触景LEAN AI新品激活平安中国:盾悟II/结构化服务器/双目读头/电警

2019/3/28 20:17:45

48、智能家居:以ZigBee技术实现控制器设计

2019/3/28 15:20:20

49、UC浏览器(国际)被曝中间人攻击(MITM)漏洞,官方回应:已修复,国内版不受影响

2019/3/28 13:48:48

50、名副其实双冠军 iQOO全平台销售成绩喜人

2019/3/28 13:48:07