人工智能的兴起与深度感知的蓝海

经过了两年的发展,国内的O2O创业,该倒闭的倒闭,该合并的合并,或抱团取暖,或投入BAT的麾下,进入到2016年以来,基本可以说是格局已定。在O2O领域格局已定的情况下,创业者和投资人把目光更多地投向了企业服务(SaaS)、泛娱乐(IP、直播)、AR/VR以及人工智能(自动驾驶、无人机、机器人)等领域。

在AR/VR以及自动驾驶、无人机、机器人等人工智能领域,对深度感知的需求十分突出。比如在机器人领域,使用基于深度摄像头的视觉系统进行视觉导航、识别外界的环境、规划路径、实现避障工作等,已经成为了公认的解决方案。

虽然市场对深度感知技术需求趋于井喷,但是目前可以提供深度感知产品和方案的公司却不多。

一方面是因为深度感知作为人工智能的重要组成部分,其技术门槛很高,创始团队如果没有相关领域的技术大拿,项目很难启动。

另一方面是深度感知已经成为各大科技巨头的角逐之地,Apple、Microsoft、Facebook/Oculus、Intel、Google等巨头早已瞄准该技术,疯狂收购这个领域的创业公司,比如Intel收购RealSense、苹果收购Kinect的技术供应商PrimeSense,Oculus收购Pebbles Interfaces。有些甚至只要有不错的产品demo,就能够被收编。

上述大公司的收购,无一例外都在为自己的产品构建核心技术门槛,为内部生态服务,并不对外提供产品和服务,因此导致专业的深度感知供应商变得非常稀缺,尤其是PrimeSense被苹果收购,于2015年停止对外授权和供货后,在市场领域留下了很大的空白。

目前,国内从事深度视觉技术开发的公司屈指可数,此时可以对外提供深度感知产品和方案的公司,必定成为市场的宠儿。

深度感知的三种解决方案

目前的深度感知方案,主要产品就是深度摄像头。深度摄像头除了能够获取平面图像以外,还可以获得拍摄对象的深度信息,也就是三维的位置和尺寸信息,于是整个计算系统就获得了环境和对象的三维立体数据。

按技术分类,深度摄像头可分为以下三类主流技术:结构光、双目视觉和TOF飞行时间法。

结构光

结构光是目前最主流、应用最广泛的深度感知方案,其基本原理是由结构光投射器向被测物体表面投射可控制的光点、光条或光面结构,并由图像传感器获得图像,通过系统几何关系,利用三角原理计算得到物体的三维坐标。国内从事单目结构光方案开发的有深圳奥比中光科技有限公司、南京华捷艾米软件有限公司等,市场上的典型产品有Kinect 1代。

结构光方案优势在于技术成熟,识别距离远,深度图像分辨率可以做得比较高,但容易受光照影响。

双目视觉

双目只需安装两个摄像头,利用双目立体视觉成像原理,通过两个摄像机来提取包括三维位置在内的信息进行深度感知。市场上的典型的产品有LeapMotion,大疆无人机等。 

由于不涉及光学系统,因此双目视觉的成本是三种深度感知方案中最低的。不足的是,这种技术需要庞大的程序计算量,对硬件设备有一定配置要求,同时受外界环境影响大,比如环境光线昏暗、背景杂乱、有遮挡物等情况下不适用。

TOF飞行时间法

TOF是飞行时间(Time of Flight)技术的缩写,基本原理是传感器发出经调制的近红外光,遇物体后反射,传感器通过计算光线发射和反射时间差或相位差,来换算被拍摄景物的距离,以产生深度信息,此外再结合传统的相机拍摄,就能将物体的三维轮廓以不同颜色代表不同距离的地形图方式呈现出来。目前国内TOF方案的有深圳乐行天下科技有限公司等,市场上的典型产品有Kinect 2代。

TOF其实是相对结构光和双目视觉来说受环境影响最小的技术,不过由于传感器芯片并不成熟,成本很高,所以实现量产困难。另一方面,TOF分辨率不高,因此不适合精度要求高的场景。

深度感知前景可期

前面我们已经说到,深度感知可以被用在人工智能领域实现避障、定位、导航等功能,但是深度摄像头的应用远不止这些,而且随着技术的发展,整个行业也正在为深度感知寻找更加丰富的应用场景。

1.工业领域

2005年创建于以色列的 PrimeSense 公司是深度感知民用化的先驱,由它提供技术方案的微软Kinect成为深度摄像头在消费领域的开山之作,并带动整个业界对该技术的民用开发。在此之前,深度摄像头在在工业领域已有应用,比如为机械臂、工业机器人等提供图形视觉服务。

2.智能监控

在安防领域,深度摄像头主要用行为分析,在某些特定的场景下,通过动作轨迹进而识别出人背后的意图,可以提前进行预警。另外,深度感知还能够用于检测一个区域的人流量,在商场、电影院、公交车等场景有很大需求。

3.物流领域

英特尔在近年来的 CES 和 IDF 上都力推 RealSense 并提出更多的案例,印象深刻的是,它可以运用物流仓储上,实时检测包裹的大小,计算仓库的空间,提供最佳的摆放建议。

4.AR/VR

在AR/VR设备应用中,远距离深度摄像头用于环境感知和建模;静距离深度摄像头用于手势识别。目前三大头显(HTC vive、Oculus rift、PS VR)都具备了配套的体感交互,微软HoloLens则在内部集成了两套深度摄像头来感知周围的环境和物体,从而实现了虚拟物体和真实环境的完美融合。预计将来几乎所有的的AR设备和一半以上的VR设备,都将配备深度摄像头,这两类应用的崛起,也将大力推送深度摄像头市场的增长。

所以,虽然目前深度感知技术发展尚属早期,在硬件性能、算法程序等方面面临诸多限制,很多场景的的应用也还处在商业化探索的阶段。但是随着摄像机、运算程序以及运算硬件跟上后,这项引领全新人机交互方式的技术前景可期。

来源:大卤砸(微信号:lu-cheng000),关注人工智能、企业服务和IP。

(下载iPhone或Android应用“经理人分享”,一个只为职业精英人群提供优质知识服务的分享平台。不做单纯的资讯推送,致力于成为你的私人智库。)

文章所涉及判断和结论为作者个人观点,并不代表经理人分享立场。