驱动中国2017年10月23日消息 随着面部识别、图像识别等计算机视觉技术在更多应用场景的兴起,已经有技术公司尝试让机器学会做更深入的识别。像之前,eBay就尝试让用户通过图片来搜索商品,谷歌推出过宠物图像识别功能。计算机视觉已经将从静态图像领域,走向动态视频领域。 据外媒报道,日前谷歌公司推出了最新适配数据库,希望通过推动计算机视觉来识别视频影像中人物的行为。这个数据库被命名为“AVA”,意思是原子视觉行为,是一个由多个标签组成的数据库,用户可在视频序列中进行操作。未来,AVA数据库将用于人类行为识别系统开发,并对基于时空间隔标签的复杂行为进行建模。 对于视频中动作的识别,由于多个动作在同一时间由不同人发出,这种识别的难度就是视频中各种场景的复杂重叠。谷歌软件工程师大卫罗斯表示,“要教会机器识别影像中人物的行为是发展计算机视觉的一大基本难题,但对于个人视频搜索和发现、体育分析和手势界面等应用至关重要。” AVA数据库本质上来看,它是一个被80个原子动作标注的YouTube网址,这个视频库中总共有5.8万个视频片段,包含了握手、拥抱、散步、踢腿、玩乐器等人类日常行为。谷歌希望对外开放这个数据库可以改进机器智能视觉工功能,可以做到理解人类行为动作、并预测下一步动作。
|