首页新闻手机家电数码电脑财经大模型直播

明辨择善之智——大疆精灵4视觉追踪解读

来源： sohu.com 2016-06-13/17:55

机器人

航拍机器人

正文

以人类智慧之名，点亮精灵之眸，赋以腾云驾雾之能，赋以明辨择善之智，代目望高，携梦远行。

Phantom 4的面世掀开了机器视觉进入了实用场景的序章。智能跟随依靠机器视觉躲避障碍，依靠机器视觉识别目标，机器视觉的应用使得Phantom 4不再是一台提线木偶，而是拥有了有一定自主飞行能力的空中机器人。

而实现这一变革的基础的机器视觉，究竟是个什么东西，在智能跟随中，视觉又起到了什么样的作用，为什么有了视觉飞行器就能够实现自主飞行。

带着这些问题，今天我们来讲一个故事，这个故事的剧本写在我们每个人身体里，每个细胞中，这个故事已经讲了38亿年，而且还将继续讲下去??

猎手之眼

在介绍机器视觉之前，我们先看看在自然界一场普通的厮杀中视觉起到了怎样的作用。

广阔的草原上，一只落单的羚羊正在进食，它长在两侧的双眼警惕的观察着环境。

草食动物的双眼一般长在头部两侧，双眼各自观测一片区域，这样可以带来更大视野范围，以便减小视野的盲区，预防可能的袭击—— 来自猎手的偷袭。

同时，羚羊的大脑中也在不停的将看到的画面与可能的猎食者形象相匹配，在草原上识别出一身伪装色的猎食者可并不容易。

然而羚羊并没有发现，在它不远处的石堆后，一只猎豹伏低了身子，正在悄无声息的靠近。

与草食动物不同，肉食动物的双眼往往集中在面部前方，双眼同时观测同一区域，以便获得立体视觉，从而测量出目标的距离。

猎豹通过双目视觉测量出目标大概在十米外，前方五米处有一堆石块，猎豹推算好了目标距离和袭击路线，站定，呼吸减缓，身姿伏低，肌肉绷紧，双眼紧盯，大自然花费数十亿年打造的这台杀戮机器现在犹如一架绞满的弩，只需要一个扣动扳机的时机?

时机很快到了，抬头张望了一圈的羚羊仍然没有察觉到危机，它重又低下头，准备进食，在它低头的那一刻?

扳机扣响！

蓄势已久的猎豹如离弦之箭射了出去，周围的草丛犹如被看不见的泰坦猛力往后拉扯的餐布，在视野中飞快后退，快到石堆的时候猎豹敏捷地拐了一个弯绕过障碍，目标一直牢牢的锁定在视野范围中，距离随着剧烈的心跳越来越近，越来越近?

上面这个猎手与猎物的故事就是目标追踪最简略的原理，实现这样的目标追踪的效果，大自然用了几十亿年的时间来进化打磨。

抓到羚羊需要几步？

1，从茫茫无垠的草原上发现羚羊并牢牢盯住。

2，观测羚羊周围的环境与路线上的障碍。

3，思考行动路径以及奔跑！

进化之路——史前时代

为了完成以上的几个过程，数十亿年间无数物种在进化之路上前仆后继，终于进化出这套高效的目标追踪。而无人机上的目标追踪功能，同样也经历着进化的历程。

航拍无人机经历了前三代的发展，其跟拍功能都是基于GPS的目标追踪。

曾几何时，市面上出现许多主打目标跟踪功能的无人机品牌，纷纷以拥有目标跟踪的功能作为宣传点。国外的产品有红极一时刷爆朋友圈的lily无人机，众筹的Airdog，甚至老牌的无人机厂商3DR。国内也有一大票活跃在朋友圈，众筹网站，微博的所谓“黑科技”无人机产品。

以上提到的所有宣称有目标跟踪技术的无人机产品，但是可以看到，上面所有的产品使用目标跟踪功能的话，都必须要满足某种前提条件：携带某种设备，这种设备或者是手环，或者是“魔棒”，或者是遥控器等等等等。

那么这些设备里面都有什么奥秘，为什么用户必须要携带某种设备才能使用目标跟踪的功能呢？

为什么呢？

大家一定非常好奇吧！（其实并没有）

好啦好啦，既然大家都这么想知道，那么小编科普时间到~

既然是目标跟踪，那么首要需要解决的问题就是得知道目标在哪里呀！这是一个对目标的定位问题。

说到定位技术，目前应用范围最为广泛，方案最为成熟的就是卫星定位啦。说到卫星定位，虽然听起来是非常高端的科技名词，让人很容易一下就联想到下面这幅高大上的画面。

虽然听起来真的是碉堡了，不过近年来微电子技术的突飞猛进，要应用这个技术其实并不困难。我们常用的手机，车载导航等电子设备中常常都有一片GPS定位芯片，用于自身的定位。

类似的芯片长成这样，非常小巧，但是可以提供一个还能接受的定位精度。

那么接下来就比较简单粗暴了，不是不知道目标的位置吗，给他装一个GPS接收机不就结了。

是的！就这么简单粗暴，上述产品中或者手环，或者“魔棒”，或者遥控器，其实不同的外表之下，都有着一颗小小的GPS接收机。这个接收机的形态无论是什么样子，其本质作用都是一样的--------提供目标的位置坐标。

既然知道了目标的位置，无人机也知道了自己的位置，那么控制飞行器追上目标，这就是一个很简单的控制问题了。

回想到文首所说的抓到羚羊的3步，使用这种方式的目标跟踪，事实上跳过1，2步，直接控制无人机往目标飞行就可以了。

这也是这么多产品都以GPS进行目标跟踪并且将其作为自己的主打特色的原因，因为?真的是方便又简单，加量不加价?

有一些公司把这种基于GPS进行目标跟踪的技术称为黑科技??笔者只能用黑黑黑，嘿嘿嘿表示赞同。

如果还是使用猎豹和羚羊的故事举例的话，使用GPS进行目标跟踪的原理大概就是：猎豹瞎了，羚羊一副生无可恋的样子大声朝猎豹喊：

你来抓我呀你来抓我呀我在你的前方偏右32度，距离12.6米！你有本事你来抓我呀抓我呀！

然后猎豹就循着声音所说的方向和距离猛地冲向了目标，然后吧唧一声，撞死在了岩石上?

Sad story.

因为没有视觉的猎豹没有办法感知环境，也就没有办法知道前面有障碍物，当出现障碍物的时候，猎豹也只能撞了上去。即便猎物已经放弃治疗大声疾呼生无可恋引导猎豹往，也难以避免悲剧结局。算了这种猎豹似乎算不上大自然几十亿年的进化结晶，还是别叫猎豹叫瞎猫吧?.

使用GPS进行目标跟踪，撞死以外可能还存在以下几个问题：

1.真的不知道在拍什么

使用GPS进行目标，无人机只能被动由目标所携带的GPS设备发送的信息进行跟随，由于GPS定位精度在理想的情况下只有2.5米，并且更新频率较低，故而无人机并不知道目标所在的确切位置，所以使用GPS进行的目标跟踪要么目标难以出现在画面中，要么无人机拍摄的位置距离目标非常远。这样拍摄出来的镜头并不好看。

I’m here！damn stupid drone！

2．也不是什么都能拍

风和日丽的街上，偶然看到一个令人心动姑娘，有心留下她翩翩倩影，于是兴冲冲的跑过去，深情款款的对她说妹子你好~ 麻烦拿上我的遥控器让我偷拍一下你吧~

啪！

自己家二哈实在太可爱，想要跟拍它一段视频，咳咳，二哈乖二哈好，二哈帮我拿着GPS接收器？

汪！

3．这个世界太危险了

干扰，这也是最为致命的一点，使用GPS接收机进行目标跟踪，由于GPS信号存在电离层干扰，SA误差，多径效应等原因，所以定位精度并不可靠。只有在开阔无干扰的地方才有较好的定位精度，而在环境稍微复杂一点的地方使用GPS进行定位，呵呵呵呵呵呵呵。相信大家都有过在大楼旁边进行定位，自己的坐标在地图上漂移到姥姥家的经历。前面说过，基于GPS目标跟踪的方案，飞机唯一跟踪依据是目标的GPS信号，GPS被干扰的情况下使用目标跟踪，飞行器会误以为目标真的就是高速的“漂移”，然后飞行器也会跟着乱飞。这个时候炸鸡的风险非常之高。

进化之路——精灵之眸

几亿年前，基因某次偶然的突变重组，感光细胞第一次在生物体上出现，生命对光的追求就在这一刻开始了。经历过漫长的进化长河，感光细胞、眼斑、杯状眼、视网膜、晶状体，最初简单的感光细胞一步步进化成人类身上复杂高效强大的视觉系统，在所有感官获取的全部信息中，80%的信息是我们使用眼睛获取到的。正是由于人类视觉功能的强大，人类可以使用眼睛寻找猎物，躲避危险，或者是在幽暗洞穴中享受人工制造的光与影变幻所带来的刺激—— 我们称之为电影。

现在，站在进化之巅的人类尝试着将几亿岁月锻造而成的视觉功能，赋予到自己的造物上—— 谓之机器视觉。

《历代名画记张僧繇》：“张僧繇于金陵安乐寺画四龙于壁，不点睛。每曰：“点之即飞去。”人以为妄诞，固请点之。须臾，雷电破壁，二龙乘云腾去上天，二龙未点眼者皆在。

眼睛对于生物的重要性不言自明，如果人类的造物--机器，也能拥有视觉的话，那么就能够实现很多强大的功能啦！

在上面的故事中，猎豹捕猎的过程也可以视作目标跟随的过程，如果是机器视觉来完成这个任务，首先解决的是对环境的感知（双目观测到前方有石堆），其次需要知道自己的速度与位置，（观测到自己周围环境在视野中后退，得到自己前进的速度）然后需要从复杂的背景中将目标稳定准确的检测出来，（羚羊尝试发现披着伪装色的猎豹，可惜失败了，不过猎豹做到了。）最后在视觉信息的基础上，飞行器进行航迹规划，控制飞行器以平滑的运动轨迹躲避障碍并跟上目标。（猎豹躲避障碍并追上目标）

1.观察环境

猎豹通过两只眼睛来观察周围的环境，Phantom 4也是一样一样一样的！号称双目立体视觉嘛，大致原理就是通过具有一定视距的两个摄像头（左眼和右眼）对同一目标进行观测（就是在视网膜上成像），得到前方环境的深度图。这样一样来，前方障碍物的情况了如指掌，妈妈再也不用担心我撞上迎面的妹子。

专业一点来说，你问我Phantom 4能看多远，我说能看0.7-15米（官网有售），在光线条件还行（>15lux）的情况下，除了细小的物体（比如电线）以外，它都可以看见！可是为啥晚上不行呢？小编自己脑补了一下夜里摸黑走路的情景。。。

除了往前看，Phantom 4也要常常需要看看地面，才知道跑的多快，跑了多远。这个就靠融合向下的摄像头、超声波，以及自身的惯性测量的信息进行综合计算。Phantom4号称可以在风不是特别大的情况下，稳稳地悬在空中。以小编的经验，精灵4使用了双目立体视觉，这样是为了获得相比于Phantom3以及其他使用单个摄像头来进行测量的无人机来说更为精准的速度测量和悬停的能力。所以，我就在那里，不离不弃，你想怎么拍就怎么拍！

技术一点来说，这个东西叫做视觉里程计（Visual Odometry）。它是通过对地进行视觉观测，计算光流，并融合自身的传感器来实现的。说白了，就是计算机视觉领域大名鼎鼎的Structure-from-Motion。绝大多数视觉里程计算都会用到光流的跟踪。不过如果仅仅是用光流就可以搞定的事情，那么测速和悬停早已成为所有无人机的标配。情况显然没有这么简单！比如如果地面上没有纹理变化，无法进行光流跟踪怎么办？比如有影子或者其他会运动的东西，对摄像头的光流跟踪造成干扰怎么办？比如光流跟踪一小段时间会断怎么办？误差会慢慢累积最后悬停一会儿之后就飘走了怎么办？

事实上，以实际试用的情况来看，大疆的精灵4的视觉里程精度非常高，悬停时完全不会飘，而且即使用手拉动它，也会挣扎着回到原来的位置纹丝不动。而且，在几乎没有什么纹理变化的均匀地面之上，也可以做到。这真是亮瞎了小编的双眼！！这意味着你在室内几乎任何场景下，都可以不用担心精灵4由于飘动而导致的碰撞和炸鸡（天黑闭眼除外）。以小编的经验，大疆的精灵4上一定是使用了一些不可告人的黑科技！！比上一代精灵3以及其他号称能够依靠光流悬停定位的无人机都要出色。

2.紧盯目标

为了捕获味美的羚羊，猎豹必须牢牢盯死它，不管它百般变化或穿上马甲。而这是需要猎豹的大脑来对羚羊的动作和样子进行复杂的加工。而对于精灵4来说，这就需要最前沿的模式识别和机器学习技术。为什么呢？这里有几个挑战：

2.1 目标的样子总是会变的，而环境更是多变复杂的

想象一下，在一个充满诱惑的树林里，猎豹追逐羚羊，到处都是干扰。羚羊在逃跑的时候，一会儿露出左边，一会儿露出后面，说不定一会儿露出头顶。而且还时不时经过阴影或者在顺光/逆光当中穿行。人类可以轻易的区分行人和汽车，羚羊可以从环境中识别出猎豹的身影，这是因为生物的大脑具有非常强大的模式识别能力，但是对于机器来说，使用视觉的目标跟踪却是一件困难的任务。

稍微技术一点的来说，相机看到的只是一张4K分辨率的数码表格，怎么把这些不停变化的像素识别为目标，是一项非常困难的任务。雪上加霜的是，随着光照的变化，阴影变换，物体重叠，遮挡,，形变，旋转，甚至于角度的变换，任何一个都可以让这些信息变得面目全非,，毫无逻辑可言。要让计算机能深入挖掘这些数字之间的关系，找出有用的信息, 就是模式识别和机器学习领域的研究内容了。换句话说，计算机需要不断地对目标的样子进行学习，抽取最主要的表达特征，使得它足够与变幻莫测的背景区分开来。

2.2目标时不时会被挡住或者藏起来

目标在移动的过程中，常常会被周围的环境所遮挡，怎么样只依据目标漏出来的一小部分就能判断目标的位置和大小，也是在目标追踪的过程中必须完成的挑战。以小编的知识水平来说，这一直是业界的公开难题，目前没有什么特方法精确地做到长时间的跟踪，即在跟踪的过程中准确地对目标进行学习，同时准确地判断遮挡和重新发现目标，特别是当目标和背景或者遮挡物样子非常接近的时候。

2.3 大脑反应要快

人脑可以对所有这些复杂的变化做出快速的反应，甚至在你无意识的过程中完成，这是因为人脑有非常复杂的结构和高效的处理单元——有研究表明人脑的神经元数量在10^12以上，每秒能进行的神经突触计算就更不计其数。然而纵观目前各大厂商的CPU、GPU以及目前火热的深度学习处理器，都和人脑在复杂度上差n个数量级，更何况身材瘦小的精灵4。

从Youtube的用户视频来看，大疆的Phantom 4的目标跟踪功能在这些方面都处理得很好。在光照和背景剧烈变化的情况下，还是能够牢牢地盯着不断变化的目标。即使偶尔跟丢，当目标重新出现之后，有能很大概率找回来。真是亮瞎了小编的眼镜，还是头一次看到这么稳定和强壮的跟踪和识别技术，甩都甩不掉！以小编的经验来看，大疆Phantom 4肯定是使用了类似于深度学习的黑科技。

这货并不容易驾驭。它非常的饥饿，既要大量的数据来训练，又要大量的计算资源来跑。当然，如果是仅仅是跑某个具体的小数据小复杂度的分类任务，需要的网络又很小，则另当别论。通常情况下，随着任务难度的增加，类别的增加，区分度的困难度增加，所需要的计算资源就会大幅增加。那如何在有限的计算平台上，尽可能地满足应用的需求，是最近讨论最火爆的课题——仿神经元芯片。而要实现目标，就涉及到一系列复杂的处理和优化和加速等等。大疆能把这么一种神黑科技搬到精灵4上实现复杂场景下的目标跟踪，小编已经不忍直视，就让这些大公司神人去折腾吧。

3.制定策略

接下来，猎豹就要在它的大脑中绘制一幅地图，并制定进攻策略了。这个地图的样子大概长成下面这样：里面既有目标的位置，也有自己的位置，以及环境中各种石头哇之类的障碍物。猎豹需要知道哪里能走，哪里不能走。而且猎豹需要根据羚羊的速度和动作来决定自己应该是加速往前冲，还是从旁边迂回，还是先慢下来等待机会。而且万一羚羊被花花草草遮挡住的一瞬间，猎豹还需要知道羚羊可能从哪里再次出现。专业一点说，这就是导航和路径规划的过程，既需要使飞机跟上目标，同时又要规划路线绕开路上的障碍物。这是机器人Navigation当中非常重要的一个方向。

精灵4实现了既要跟踪目标同时又要避开障碍物，规划一条足够安全的路线出来，其难度和很多厂家广为宣传的所谓的避障完全不是一个级别。单纯的避障好比我们开车的时候看到障碍物了大脚刹车，人人都会，只要不撞上就皆大欢喜。比如Typhoon H就是用了前方的超声波来干这事儿。而精灵4所谓的跟踪过程中避障就好比好莱坞电影里面，主角一遍追坏人一边还要躲避路上的车和花花草草，时而加速，时而减速，时而打方向盘，搞不好还要运用到漂移??所有这些动作，都要保证安全，想起都觉得难搞，不知道大疆是怎么做到的。

产品为王

那么这些看上去牛叉轰轰的技术，作为小白用户，它究竟能带给我哪些好处，我能拿它来干什么呢？

_长镜头跟踪拍摄：以前用无人机进行跟踪拍摄，要靠勤劳的双手。好点的通过遥控器GPS能跟着拍，结果拍出来的画面里总是有个遥控器再那里。再好一点的带个悬停，在一些场景下不至于总是飘来荡去，甚至碰撞炸鸡。现在拥有精灵4之后，这些问题统统不用担心，只需要在APP上框选目标，它就可以帮你拍出专业级的长镜头跟拍视频，中间动作的变化非常平滑自然，甚至偶尔还有小小惊喜。是不是很吊？尤其是这个过程它遇到障碍物会自己躲过去！基本不影响视频的拍摄。有没有很吊？

_自动环绕飞行：用手更难拍出来的不仅是长镜头跟拍，更有刷锅环绕。这个是高级技能好吧！现在精灵4的智能跟随模式里，可以通过仅仅掰动摇杆就能实现。关键的关键是，不仅能够对静止的物体进行环绕刷锅，对运动中的物体（比如船、骑自行车等等）也行，而且效果很震撼！小编用人格担保一份价钱一份货！

_动态构图：厌倦了总是把妹子摆在画面中间？大疆的攻城狮们的确周到，连构图的事儿都帮你想到了！在跟拍或者刷锅的时候，随时在APP上拖动目标，轻松drag-and-drop就能实现改变目标的位置，太贴心了！

_自拍：想自拍？框好自己之后，面对着飞机往前走，看看拍出来的视频，是不是很酷？以前从没有体验过的视角？

_单点目标初始化：想瞬间选中正在移动中的物体怎么办？画框太久目标走过去了？没关系，直接点击移动中的目标也行！重视用户体验果然不是吹出来的。