光场技术是目前最受追捧的下一代显示技术,谷歌、Facebook、Magic Leap等国内外大公司都在大力布局。然而目前国内对光场(Light Field)技术的中文介绍十分匮乏,曹煊博士《Mars说光场》系列文章旨在对光场技术及其应用的科普介绍。
曹煊博士系腾讯优图实验室高级研究员。优图— 腾讯旗下顶级的机器学习研发团队,专注于图像处理、模式识别、深度学习。在人脸识别、图像识别、医疗AI、OCR、哼唱识别、语音合成等领域都积累了领先的技术水平和完整解决方案。
《Mars说光场》系列文章目前已有5篇,包括:《Mars说光场(1)— 为何巨头纷纷布局光场技术》、《Mars说光场(2)— 光场与人眼立体成像机理》、《Mars说光场(3)— 光场采集》、《Mars说光场(4)— 光场显示》、《Mars说光场(5)— 光场在三维人脸建模中的应用》 ,雷锋网经授权发布。
【摘要】 — 光场显示能在视觉上完全重现真实世界,但在显示光场以前首先要采集光场,否则将会是“巧妇难为无米之炊”。传统相机拍摄的2D图片不能用于光场显示[1],因此需要专业的光场采集设备。相关研究者已经建立了一系列光场采集的理论[2],并在光场采集技术的发展过程中出现了多种设计方案,受到广泛关注和研究的主要有三种设计思路:(1)基于微透镜阵列(Microlens Array)的光场采集;(2)基于相机阵列(Camera Array)的光场采集[3];(3)基于编码掩膜(Coded Mask)[4]的光场采集。
1、基于微透镜阵列的光场采集
基于微透镜阵列的光场采集最早可以追溯到1908年Lippmann提出的集成成像(Integral photography)[5],集成成像为基于微透镜阵列的光场采集奠定了重要的理论基础。关于集成成像的发展历史,可以参考Roberts在2003年的详细梳理[6]。基于集成成像理论,MIT的Adelson在1992年尝试采用微透镜阵列来制造光场相机[7],斯坦福Levoy将集成成像应用于显微镜,实现了光场显微镜[8]。
基于透镜阵列的光场采集主要依靠在成像传感器与主镜头之间加入一片微透镜阵列,物体表面光线首先经过主镜头,然后经过微透镜,最后到达成像传感器(e.g. CCD/CMOS)。如图1所示,物体表面A点在FOP角度范围内发出的光线进入相机主镜头并聚焦于微透镜,微透镜将光线分成4×4束,并被成像传感器上对应的16个像素记录。类似的,空间中其它发光点,例如B点和C点,在其FOP角度范围内的光线都被分成4×4束并被分别记录。
微透镜阵列的主要作用是将物体表面同一点在一定角度范围内的各个方向发出光线进行离散化解耦,图1中的微透镜将光线离散化为4×4束,离散化程度由微透镜光学参数、主透镜光学参数及微透镜与成像传感器之间的距离等多方面因素决定。
参照光场4D模型,微透镜阵列好比(s, t)平面,成像传感器好比(u, v)平面。在基于微透镜阵列的光场采集模型中,(s, t)平面微透镜的数量决定了光场的图像分辨率。(u, v)平面像素数量决定了能采集光线的总数量,(u, v)平面像素总量与(s, t)平面微透镜数量的比值即为光场角度分辨率,也即采集视点个数。
图 1. 基于微透镜阵列的光场采集原理示意图
基于微透镜阵列的光场采集具有体积小,单次拍摄成像等优点。但也存在两个明显的缺陷,一方面是单视点的图像分辨率损失严重[9],例如使用4K(4096*2160)的图像传感器采集4×4视点的光场,则图像分辨率在水平方向和垂直方向都降低到原分辨率的四分之一,既单个视点图像分辨率只有1024*540。另一方面是采集光场的FOP角度较小,也即视差较小,只能在较小的角度范围内变换视点。
尽管存在上述的缺点,但由于总体成本在可控范围内,基于微透镜的光场采集方案是商业化光场相机主要采用的方案。目前已经商业化的光场相机主要包括美国的Lytro和德国的Raytrix。Lytro是一款基于微透镜阵列的手持光场相机,由斯坦福大学Ren Ng(Marc Levoy的博士生)在2005年提出 [10,11],并分别于2011年和2014年正式向市场推出第一代和第二代手持式光场相机Lytro[12]。相比传统相机,Lytro的关键设计是在传统相机中嵌入一块微透镜阵列,如图2所示。物体发出的光线被主透镜聚焦在微透镜阵列平面,微透镜阵列将光线分开并被图像传感器分别记录下来,从而同时记录了不同方向上光线的强度。
图 2. 美国Lytro基于微透镜阵列的光场相机
Raytrix [13]是德国一家创业公司,同样是基于微透镜阵列的便携式光场相机[14]。Lytro主要面向大众普通用户,而Raytrix不仅面向普通用户还面向工业和科研应用领域,如图3所示。Raytrix扩大了采集光场的深度范围[15]并开发了一套自动标定算法用于标定光场相机[16]。
图 3. 德国Raytrix基于微透镜阵列的光场相机
Adobe Systems Inc. 的Todor Georgeiv在2006年研究了视点分辨率与角度分辨率之间的互相平衡关系[17],在2008年提出了一种统一的光场相机仿射光路理论[18]并提高光场分辨率[19],基于该理论框架构造的光场相机如图4所示。严格来说,Todor Georgeiv提出的光场相机与上述Lytro和Raytrix的基于微透镜阵列的光场相机并不完全相同。图4中透镜阵列更靠近相机主透镜位置,解耦合后的光线在成像传感器上形成的图像与Lytro或Raytrix并不相同,因此从成像传感器原始数据提取光场的算法也与Lytro和Raytrix不同。
图 4. 美国Adobe Systems Inc.光场相机
2、基于相机阵列的光场采集
基于相机阵列的光场采集不需要对相机进行改造,但需要增加相机的数量。光线从物体表面发出,分别进入多个相机镜头,并分别被对应的成像传感器记录。如图5所示为4×4相机阵列,A点在半球范围内发出各向异性的光线,其中FOP角度范围内的光线进入了相机阵列,并被分成4×4束光线,每束光线被对应的镜头聚焦在成像传感器上,由此A点各向异性的光线被离散化为4×4束并被分别记录。
对比图1中基于微透镜的光场采集方案,相机阵列通过多个镜头将物体表面同一点在一定角度内各向异性的光线解耦和,并离散为多束光线分别记录。解耦和后的离散化程度由相机阵列的规模决定。相机数量越多,离散化程度越高。
参照光场4D模型,图5中镜头阵列好比(s, t)平面,成像传感器阵列好比(u, v)平面。(s, t)平面镜头的数量,也即相机的数量,决定了光场视点个数。(u, v)平面所有像素数量决定了能采集光线的总数量。(u, v)平面像素总量与(s, t)平面镜头数量的比值即为单个视点分辨率。一般而言,相机阵列中各个相机成像传感器的分辨率一致,所以单个相机成像传感器的分辨率即为光场视点分辨率。
图 5. 基于相机阵列的光场采集示意图
相比基于微透镜阵列的光场相机,基于相机阵列的光场采集方案具有两个明显的优势:(1)采集光场的FOP角度较大,也即视差较大,可以在较大的角度范围内变换视点。(2)图像分辨率不损失,因此单个视点的图像分辨率一般都高于基于微透镜阵列的光场相机。但基于相机阵列的光场采集方案也存在成本高昂,体积较大的明显缺陷,例如图6中Jason Yang于2002年在MIT搭建出全世界第一套近实时相机阵列[20],由8×8共64个相机组成,单个视点分辨率为320×240,光场采集速率为18FPS,延迟为80毫秒。
图 6. Jason Yang于2002年在MIT实现的实时相机阵列
斯坦福大学Bennett Wilburn在2000年实现了数据编码压缩的光场视频相机[21],之后进一步改进光场相机系统,在2004年展示了稠密光场相机阵列[22]。Bennett Wilburn设计的稠密光场相机阵列包含52个30fps的COMS成像单元,单个视点分辨率为640×480,如图7所示。
图 7. Bennett Wilburn于2004年在斯坦福大学设计的稠密光场相机阵列
Bennett Wilburn在2005年进一步增加相机数量到约100个,构建了大规模光场相机阵列[23],并搭建了三种不同类型的大规模光场相机,如图8所示,分别是(a)紧密排列的长焦镜头大规模相机阵列,主要用于实现高分辨率成像。(b)紧密排列的广角镜头大规模相机阵列,主要用于实现高速视频捕获和混合合成孔径成像。(c)分散排布的大规模相机阵列。
图 8. Bennett Wilburn于2005年在斯坦福大学设计的大规模光场相机阵列
由于硬件成本高昂,体积较大等缺点,目前To C端的应用中还没有采用基于相机阵列的光场采集方案。曹煊在2015年提出稀疏相机阵列光场采集方案[24],利用压缩感知和稀疏编码大大减少了相机数量,降低了硬件成本,但仍然存在体积大的问题。Pelican是美国硅谷的一家创业公司,正在尝试将相机阵列小型化。该公司在2013年实现了超薄高性能的相机阵列[25],如图9所示。通过光学设计的优化[26]和光场超分辨算法的应用[27,28],Pelican制造了小巧的相机阵列,并形成一个独立的光场相机模块。Pelican综合了多种方法在保持相机阵列轻薄的前提下提升了所采集光场分辨率[29,30]。
图 9. 美国初创公司Pelican设计的超小体积高性能相机阵列
3、基于编码掩膜的光场采集
基于微透镜阵列和基于相机阵列的光场采集都有一个共同点——“阵列”。前者通过多个微透镜构成阵列,牺牲图像分辨率换取角度分辨率。后者通过多个相机构成阵列,在不牺牲图像分辨率的情况下增加了角度分辨率,但是需要增加大量的图像传感器。总体而言,视点分辨率与角度分辨率是一对矛盾因素,总是此消彼长。通过增加成像传感器数量来抵消这一矛盾会造成硬件成本的急剧增加。
上述两种光场采集方案必须在图像分辨率和角度分辨率之间进行折中。学术界最新出现的基于编码掩膜的光场采集打破了这一局限。该方案通过对光场的学习去掉光场的冗余性,从而实现了采集更少的数据量而重建出完整的光场。
如图10所示,在传统相机的成像光路中加入一片半透明的编码掩膜,掩膜上每个像素点的光线透过率都不一样(也称为编码模式),进入光圈的光线在到达成像传感器之前会被掩膜调制,经过掩膜调制后的光线到达成像传感器。利用提前学习好的光场字典,从单幅采集的调制图像就可以重建出完整的光场。掩膜的编码模式理论上可以采用随机值,Kshitij Marwah证明了通过约束变换矩阵的转置与变换矩阵的乘积为单位矩阵可以得到优化的编码掩膜,采用优化后的编码掩膜可以重建出更高质量的光场。
图 10. Kshitij Marwah于2013年在MIT设计的掩膜光场相机
很多学者已经尝试利用编码掩膜来实现计算成像,例如国立台湾大学的Chia-Kai Liang 在2008年采用可编程的光圈结合多次曝光成像实现了光场采集[31]。美国MIT大学在掩膜相机方面的研究非常深入,MIT大学CSAIL的Anat Levin 于2007年采用编码光圈实现了深度图像的采集[32],MIT Media Lab的Veeraraghavan Ashok 在2007年采用掩膜实现了可以重聚焦的相机[33],后于2011年结合闪光灯和相机掩膜实现了对高频周期变化的图像进行高速摄像[34]。MIT Media Lab的Kshitij Marwah于2013年提出了基于掩膜的压缩光场采集[35]。
基于编码掩膜的光场采集方案最大的优势在于不需要牺牲图像分辨率就能提高角度分辨率。但该方案存在光场图像信噪比低的缺点,这主要是由于两方面的原因造成:(1)掩膜的透光率不能达到100%,因此会损失光线信号强度,导致成像信噪比低;(2)所重建的最终光场图像并不是成像传感器直接采集得到,而是通过从被调制的图像中进行解调制得到;本质上是基于已经学习的光场字典去“猜”出待重建的光场。
4、光场采集方案对比
上述三种主流的光场采集方案与传统相机总结对比如下表。
表1. 传统2D采集设备与光场采集设备的对比
采集数据维度 | 优点 | 缺点 | |
传统相机 | R(x, y, λ, t) | 技术成熟, 价格低廉 | 只能采集平面图片,
等同于角度分辨率为1X1的低阶光场 |
微透镜阵列 | R(x, y, θ, Φ, λ, t) | 体积小, 成本较低 | 图像分辨率损失严重 |
相机阵列 | R(x, y, θ, Φ, λ, t) | 基线大,视差大
图像分辨率较高 | 成本高,体积大
硬件同步困难 |
编码掩膜 | R(x, y, θ, Φ, λ, t) | 体积小
分辨率不损失 | 信噪比低
光场质量下降 |
基于微透镜阵列的光场采集具有体积小巧,硬件成本低等优点。但其缺点也很明显:1)光场视点图像分辨率损失严重,随着视点数量的增加,单个视点分辨率急剧降低。2)受到相机光圈的限制,光场中可观察的视差范围较小。
基于相机阵列的光场采集相比基于微透镜阵列的光场采集具有更多优点:1)视点分辨率不损失,由单个相机成像传感器决定。2)光场的视差范围更大。但基于相机阵列的光场采集仍然面临两个问题:1)需要的相机数量较多,硬件成本高昂,例如采集7×7视点的光场需要49个相机。2)相机同步控制复杂,数据量大,存储和传输成本高。
基于编码掩膜的光场采集打破了角度分辨率与视点图像分辨率之间的互相制约关系,利用“学习”的方法去掉光场冗余性,从少量信息中恢复光场。虽然存在信噪比降低的问题,但在2K时代,分辨率不损失这一优点使得该方案受到广泛关注。
[1] Van Berkel C. Image Preparation for 3D-LCD[C]//Stereoscopic Displays and Virtual Reality Systems VI,1999.
[2] Chai J X, Tong X, Chan S C, et al. Plenoptic sampling[C]// Conference on Computer Graphics and Interactive Techniques. ACM Press/Addison-Wesley Publishing Co. 2000:307-318.
[3] Levoy M. Light Fields and Computational Imaging[J]. Computer, 2006, 39(8):46-55.
[4] Lanman D. Mask-based light field capture and display[C]// Ph.D. Dissertation, Brown University, 2011.
[5] Lippmann G. Epreuves reversibles. Photographies integrals[J]. Comptes-Rendus Academie des Sciences, 1908, 146(3):446-451.
[6] Roberts D E. History of Lenticular and Related Autostereoscopic Methods[J]. Leap Technologies Hillsboro, 2003.
[7] Adelson E H, Wang J Y A. Single Lens Stereo with a Plenoptic Camera[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1992, 14(2):99-106.
[8] Levoy M, Ren N, Adams A, et al. Light field microscopy[J]. Acm Transactions on Graphics, 2006, 25(3):924-934.
[9] Hoshino H, Okano F, Isono H, et al. Analysis of resolution limitation of integral photography[J]. Journal of the Optical Society of America A, 1998, 15(8):2059-2065.
[10] Ren N, Levoy M, Bredif M, et al. Light Field Photography with a Hand-Held Plenopic Camera[J]. Tech. Rep. CSTR Stanford Computer Science. 2005.
[11] R. Ng, “Digital light field photography”, PhD. Thesis, Stanford University, 2006.
[12] https://illum.lytro.com/
[13] www.raytrix.de
[14] Raytrix, “Digital imaging system for synthesizing an image using data recorded with a plenoptic camera,” European Patent EP09005628.4 (April 2009).
[15] Perwass C, Wietzke L. Single lens 3D-camera with extended depth-of-field[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2012.
[16] Heinze C, Spyropoulos S, Hussmann S, et al. Automated Robust Metric Calibration Algorithm for Multifocus Plenoptic Cameras[J]. IEEE Transactions on Instrumentation & Measurement, 2016, 65(5):1197-1205.
[17] Georgeiv T, Zheng K C, Curless B, et al. Spatio-angular resolution tradeoffs in integral photography[C]// Eurographics Symposium on Rendering Techniques, Nicosia, Cyprus. DBLP, 2006:263-272.
[18] Georgeiv T, Intwala C. Light Field Camera Design for Integral View Photography[J]. Adobe Technical Report, 2008.
[19] Lumsdaine A, Georgiev, T, Full resolution lightfield rendering, Adobe Technical Report, 2008.
[20] Yang J C, Everett M, Buehler C, et al. A real-time distributed light field camera[C]// Eurographics Workshop on Rendering. Eurographics Association, 2002:77-86.
[21] Wilburn B S, Smulski M, Lee K, et al. The Light field video camera[J]. Proceedings of SPIE – The International Society for Optical Engineering, 2001, 2002:29–36.
[22] Wilburn B, Joshi N, Vaish V, et al. High-Speed Videography Using a Dense Camera Array[C]// Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on. IEEE, 2004:II-294-II-301 Vol.2.
[23] Wilburn B, Joshi N, Vaish V, et al. High performance imaging using large camera arrays[J]. Acm Transactions on Graphics, 2005, 24(3):765-776.
[24] Cao X, Geng Z, Li T. Dictionary-based light field acquisition using sparse camera array[J]. Optics Express, 2014, 22(20):24081-24095.
[25] Venkataraman K, Lelescu D, Duparr, et al. PiCam : an ultra-thin high performance monolithic camera array[J]. Acm Transactions on Graphics, 2013, 32(6):166.
[26] Tanida J, Kumagai T, Yamada K, et al. Thin Observation Module by Bound Optics (TOMBO): Concept and Experimental Verification[J]. Applied Optics, 2001, 40(11):1806.
[27] Baker S, Kanade T. Limits on Super-Resolution and How to Break Them[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2000, 24(9):1167-1183.
[28] Bishop T E, Zanetti S, Favaro P. Light field superresolution[C]// IEEE International Conference on Computational Photography. IEEE, 2009:1-9.
[29] Georgiev T, Chunev G, Lumsdaine A. Superresolution with the focused plenoptic camera[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2011:78730X-78730X-13.
[30] Wanner S, Goldluecke B. Spatial and Angular Variational Super-Resolution of 4D Light Fields[M]// Computer Vision – ECCV 2012. Springer Berlin Heidelberg, 608-621.
[31] Liang C K, Lin T H, Wong B Y, et al. Programmable aperture photography: Multiplexed light field acquisition[J]. Acm Transactions on Graphics, 2008, 27(3):55.
[32] Levin A, Fergus R, Durand F, et al. Image and depth from a conventional camera with a coded aperture[C]// ACM SIGGRAPH. ACM, 2007:70.
[33] Veeraraghavan A, Raskar R, Agrawal A, et al. Dappled photography: mask enhanced cameras for heterodyned light fields and coded aperture refocusing[C]// SIGGRAPH. 2007:69.
[34] Veeraraghavan A, Reddy D, Raskar R. Coded Strobing Photography: Compressive Sensing of High Speed Periodic Videos[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2011, 33(4):671-686.
[35] Marwah K, Wetzstein G, Bando Y, et al. Compressive light field photography using overcomplete dictionaries and optimized projections[J]. Acm Transactions on Graphics, 2013, 32(4):1-12.
雷锋网原创文章,未经授权禁止转载。详情见转载须知。
人才济济的CV赛道,从来不缺黑马,千视通便是其中一匹。
近日,主打原创人工智能算法与视频深度学习技术的千视通,在Market 1501、DukeMTMC-reID、CUHK03这三个衡量Re-ID技术最通用的数据集测试中,获得了巨大突破。
这些数据集中有两项核心指标评判标准:首位命中率(Rank-1 Accuracy)以及平均精度均值(Mean Average Precision,缩写mAP,它反映检索的人在底库中的所有图片排在结果队列前面的程度)。
根据相关数据显示,目前千视通在Market 1501上的首位命中率(Rank-1 Accuracy)已经达到97.1%,超越人眼识别能力(94%),并刷新了今年4月公布的96.6%的世界纪录。
同时在CUHK03,Duke MTMC-reID两个数据集上也刷新了之前业内最高纪录,达到了行业state of the art的技术水平,特别是在CUHK03数据集上,Rank 1指标提高了10.7%。
注:以上数据由国家超级计算长沙中心测试验证。
人脸识别后,千视通用ReID“擦亮”AI天眼
成立于2011年的千视通是一家视频大数据结构化技术提供商。短短七年时间,其已经手握500家客户,在香港、深圳、苏州、长沙均设有研发中心,并于上月斩获近亿元A轮融资。
与所有赛道玩家一样,对于AI技术的深耕与落地是千视通的立业之本。
如果有人追问,在AI安防市场大局将定的下半场,千视通缘何还能逆风猛进,其CTO胡大鹏博士试图给出答案。
当包括AI在内的前沿科技成为所有企业的最强竞争力及核心生产力,那些痴迷于技术的工程师们便取代了此前数世纪的冒险家们成为商业之神赫尔墨斯的新宠。
作为一直在学术界耕耘的前沿学者,胡大鹏博士自香港科技大学毕业后,先后任职北京微软亚洲研究所、香港中文大学等科研机构。
之后,他带着在机器视觉技术产业转化和应用开发方面的丰富经验落地安防圈,让AI技术重塑已经尘封多年未做改变的安防市场。
在胡大鹏博士看来,以AI技术为代表的高新科技的发展为人们提供了越来越多的可能性。
它与传统安防行业的结合,不仅重新定义了产品的作业、体验方式,还不断颠覆与重塑着整个行业的价值链。
用他的话说,“得益于AI的发展,新的‘安防’时代正在诞生。”
2014年前后,成百上千家 AI初创企业陆续带着天赋杀入了这个稍显禁锢的传统产业,而后又纷纷折戟收场、炮灰使然。
抚今追昔,当人们还没来得及反思悲伤,千视通已经从新老巨头的争食中掘开一条血道,收获大批客户、斩获巨额融资。
而所有的一切原因在胡大鹏博士看来可以总结为一点:持续在自己最懂的行业中做最擅长的事。
持续便是没有理由的坚持,最懂的行业无疑则是安防,而最擅长的事便是包括Re-ID(跨镜追踪)在内的AI技术。
Re-ID全称为Re-identification,是近年来计算机视觉领域的一个重点研究方向。
作为人脸识别技术的重要补充,其发展内核便是在不同视频中且无法获取清晰人脸特征信息前提下,机器通过穿着、发型、体态等信息将同一个人识别出来,增强数据的时空连接性。
八十字描述便准确说明了该技术的发展意义,但从0到1的研究、发展、应用过程中,Re-ID技术经历了较长的蛰伏期。
不同于人脸特征信息的唯一性,Re-ID技术在运行过程中遇到的难题与人脸识别技术可以说根本不在一个层级。
由于不同摄像设备之间存在差异,行人外观易受穿着、尺度、遮挡、姿态和视角等影响,行人再识别是一个既具研究价值同时又极富挑战性的课题。
在胡大鹏博士看来,“Re-ID是AI技术在安防行业纵横发展中必过的一道槛,不能因为难所以让其停滞不前。”
他解释说,目前人脸识别技术在安防行业落地较多,同时也的确是发展所向,但在很多实际场景中,人脸识别技术作用并不突出。
受限于视频监控探头的安装高度及密度,在实际运行过程中,它们更多拍到的是行人的头顶、后脑勺或者侧脸。其次,即便拍到人脸,摄像头拍摄的像素可能不高,尤其是远景摄像头里面人脸截出来很可能都没有32×32的像素。所以人脸识别在实际的重识别应用中很可能有限,无法看清。
相关数据统计,目前全国运行的视频监控探头中,能够准确、清晰捕捉到人脸特征信息的视频监控摄像头不到10%。
而这便出现了一个非常棘手且尴尬的问题:视频监控探头遍地都是,而大部分探头却看不清楚人脸,当监控中的人走入另外一台摄像机的监控范围,机器如何辨别“谁”是 “谁”?
“Re-ID技术便可以很好地解决这个问题。”胡大鹏博士说道。
AI通过机器学习输出的结构化信息,其实本质上是建立了一个多维向量模型。这时候,机器可以给每一个模型一个编号,做跨摄像头的人形追踪。
装载“人形追踪”技术的监控摄像头可以将一个人的行为轨迹还原;之后,只要出现在任何一台可以识别人脸的摄像头中,就可以被轻易锁定,不会出现“断片”现象。
和单点监控相比,Re-ID方案通过多组摄像机的轨迹还原及人员比对让安防工作变得更为立体,方便办案民警对目标嫌疑人的行为轨迹、出行规律进行分析,进而为案情线索和实施灵活布控打击提供依据。
胡大鹏博士判断,“现阶段大家都在展示视频结构化,其实更难的是基于跨摄像头的人形追踪。该技术的发展对于安防行业来说也具颠覆性作用。”
千视通卡视联动技战法,Re-ID+人脸识别助力高效办案
作为计算机视觉研究的热门方向,雷锋网(公众号:雷锋网)了解到,除了千视通之外,目前包括旷视、云从等厂商已经在Re-ID技术研究上发力。
但就该技术在过去一段时间的发展落地来看,不同厂商的技术比拼之间、该技术与人脸识别技术的准确率之间,效果都相差甚远。
对于不同厂商的技术实力比拼,胡大鹏博士透露,千视通之所以能够得到比较好的结果,最大的原因则是与传统的全局表征或设定好的局部分割方法不同。
一、一般算法只考虑了全局、多粒度及水平汇集讯息,而水平汇集讯息主要用于把图片对齐。在实际的情况下,摄像头的角度多变,同时人行是非刚体,所以,垂直方向也理应同时考虑。对于此种情况,千视通在网络设计上开发了自研的垂直汇集及其关联的算法层,用以更好的适应以上情况。
二、针对损失函数进行改良,千视通的 Re-ID 算法提出了新的方案,能一方面增大类间距离并同时最细化类内距离。这代表能提高所计算出的高维特征向量的唯一性,并能有效的提高可识别率。
而相较人脸识别技术准确率尚存差距,胡大鹏博士坦言,就Re-ID技术来说,其数据采集特点鲜明:
总结来看,互联网无法提供有效数据,而大规模搜集又涉及到隐私问题,由于受影响因素复杂多样且数据集规模小,该技术数据获取难度非常大,算法难度也较大。
也就是说,Re-ID技术的天然短板让其在相同时间内不能超过人脸识别技术。
他同时补充说,技术发展永远都是单向向上过程,绝无止境,在对于Re-ID技术的精进上,千视通不会轻言放弃,并于香港成立了AI研究院,投入大量资源进行相关技术研究、攻克。
此外,他还认为,深耕安防产业,做好单一算法的同时,还需要关注其他算法以及产品的最终形态,毕竟这才是与用户真正接触的部分,其也决定了产品的实用性及企业的业界口碑。
鉴于此,千视通基于多年实战经验,提出一种卡视联动技战法,结合人脸识别和跨镜追踪(Re-ID)各自的特点及优势,以少量的人脸卡口加大量的普通监控探头的部署,既可锁定嫌疑人身份,又能重现嫌疑人轨迹,这种创新的综合型技战法可以较大概率对监控范围进行覆盖,具有极强的实战价值,对安防行业具有颠覆性意义。
知己知彼方能百战不殆
对于千视通所深耕的安防行业,胡大鹏博士认知非常深刻。
他说,过去几十年中,安防行业的快速发展遇到了诸多阻碍。比如前端智能化不理想,目前国内传统天网绝大部分摄像头还是标清和制高点的高清。它们并不能清晰地拍到公安想要的角度的图像。
比如各个部门之间的数据难以打通。中国原有的IT部门都是建立一个一个的“烟囱”。“烟囱式”架构也就是垂直的体系结构,每一个IT系统都有自己的存储和IT设备,以及独立的管理工具和数据库,不同的系统不能共享资源,不能交付和访问,形成了资源孤岛和信息孤岛。
再比如业务流程难以改变。用户需要改变原有的作业模式,针对各个模式去调整工作机制。
与此同时,他也看到了安防行业未来的一些发展机会及技术发展趋势。
本次2018北京安博会,千视通也带来了以“IDs构建感知芯视界”为主题的全新产品技术亮相,与参会各方一起围绕智慧城市相关的大数据、云计算、loT话题展开热烈的讨论。
基于结构化数据提取的边缘计算作为智慧城市效率提升的重要承载,无疑将会成为大会瞩目的焦点。
智慧城市数据处理中心需要通过边缘计算的助力,来接受少量、精准、无损的结构化视频数据,减缓带宽压力,节约系统存储和计算资源,辅助信息快速检索、定向数据挖掘及系统联动的实现,从而在整体上提升系统的实时响应速度和分析精度。
在大量硬件厂商的支持和投入之下,目前市场上已经开始出现了一些低成本、高算力的深度学习运算芯片,能够把部分算力转移出来,甚至转移至前端。
“端+云”方案不仅仅是将算力转移这么简单,它能让前/后端发挥它应有的功能,前端感知、后端认知,分工明确、算力协同,从而降低存储成本、提升数据传输效率、减轻后端分析压力,提升人工智能生态系统综合服务能力。
对于未来的发展目标及规划,胡大鹏博士表示会坚定“技术落地,算法先行”战略。
无论市场上有何声音,千视通依然会与精度“较劲”、依然会在AI安防上持续深耕,解锁更多业务场景。
原创文章,作者:xgl,如若转载,请注明出处:https://edgeaitech.com/p/3268
文章点评: