陈宝权演讲实录:现实捕捉——ICEVE精选

发布时间:2017-09-02     作者:陈宝权、AICFVE      来源:未来影像高精尖创新中心

 

未来影像高精尖创新中心首席科学家陈宝权

01 捕获现实的本质

各位朋友下午好,很高兴能利用这个机会介绍一下我十多年来的研究。我把这些研究连接起来组成一个主题,叫现实捕捉(Reality Capture)。针对未来影像,我们需要不断研发新的现实捕获技术,因为现实捕获是获取数字内容的基础,而未来影像,则离不开新颖独特的内容。

当然现实捕捉这个题目是很大的,因为现实是一个非常丰富的东西,今天更多讲的是对现实场景的捕获。(对现实场景的捕获)从技术上经历了很长的发展过程。近年来出现了一个发展非常快的手段,就是通过激光扫描技术来捕获三维的物体或者三维的场景。为什么我们叫做捕获现实呢?捕获现实跟捕获一个很小的三维物体还是有差别的。我们要讨论的主要是捕获一些大型的室外场景和复杂的室内场景

 

MassiveTrees SIGGRAPH 2011

我的研究组从2002年开始进行了激光扫描的研究工作,也是那个时候出现了第一台基于三脚架的商业化室外激光扫描设备。这时候的扫描操作还是静止的,需要(把设备)放在一个三脚架上面,做一次扫描大概需要半个小时,你会得到一个包含深度的图。

这在那个时候已经是非常了不得的东西了,因为你不需要任何其它的计算,通过这个设备就可以直接测量得到一个非常密集的三维深度图。有了这个以后,我们就可以把现实的一些场景,比方说美国的总统山(Mt Rushmore),通过这样一个小的设备,放在山脚下,就可以把它三维捕获。http://7xo6kd.com1.z0.glb.clouddn.com/upload-ueditor-image-20170113-1484300237616061395.png

 

美国总统山三维扫描

一旦捕获到之后,我们就可以进行三维的漫游,可以升到空中再去俯瞰这座山。针对一个再大型的场景,我们就需要在很多不同的地方,把这个场景三维捕获下来,然后放在同一个空间坐标系里面,形成密集的,被称为“三维点云”的数据。

但是我们可以看到,这样的方式获得的原始数据,其实是非常不完整的。那么计算机要做的主要事情,就是针对原来不太完整的数据来做三维重建。作为我们的研究成果,我们可以对一个个的物体,比如说一座建筑,或者说一棵树,通过完全自动或半自动的算法,把物体的所有细节完整地重建。这里我们就可以想象一下该技术在电影制作中的应用:针对在一个电影里的场景,我们可以把它快速三维数字化,带来的好处就是,你可以编辑,可以重新组合,满足各种影像制作的需求。

02 “把城市搬进电脑里”

大概2006年的时候,我们有了更大的“野心”,我们想把设备拿到一个大的城市里面去不停地捕获三维,通过计算快速构建一个比较完整的城市三维场景,那不很酷么?(如果大家还记得的话Google Earth也是差不多的时间推出的。但那个时候Earth上的三维模型基本上都是人工构建的。)

为此我们做了一个实验,进行了足足一个夏天的时间。我们把这个设备固定在车顶上,这样就不需要人来移动这个设备了,但是每次扫描的时候必须停下来,这样就影响了效率。不仅如此,用这种方法扫描的数据拿回实验室后往往不能注册(拼接)到一个坐标空间。

事实上当时一个夏天里我们只扫描了不过两平方公里的城市街区,而且也没能完全把这些数据处理重建。当时我们得出的结论是说,这种扫描技术还不太够规模化运作。但是我们这个实验也确实引起了一些媒体的关注,包括CBS电视台。

两年之后,也就是2008年,我回到国内,到了深圳。那时候第一台商业的车载移动激光扫描系统出现了。这样一个车载设备,可以在汽车正常行驶的状态之下来进行激光扫描。

 

车载移动激光扫描

通过这个视频大家可以看得比较清楚。我们可以看到,用这种方式快速获得哪怕一个整体城市的三维数据已经完全不是问题了,这样的采集速度在两年之前是不可想象的。这非常令人兴奋!但这马上就给我们带来了进一步的挑战:如此大规模的城市场景,如此密集的三维点云数据,如何快速地重建?

接下来的几年来,我们在这个方面做了比较深入的研究,提出来一系列的三维点云处理算法。比如,这样一个有二十多栋建筑的小区,在40分钟的时间内,我们能够做到非常精细地重建(包括阳台细节)。

 

Mobile Laser Scanning

回到这个街道的场景中,里面有很多自然生长的植物。这些植物有不同的品种,都有各自的特征,如何能用一种自动化的方式来进行三维的重建呢?这是一个很有挑战的课题。我们基于三维点云自动识别树的种类,然后依据该树种的三维统计特征进行一个完整的重建。具体的技术细节,就请看我们的相关文章了。对于我们研究团队这方面的工作,CCTV做了一个“走近科学”科普报道,题目叫“把城市搬到电脑里”,大概半小时的节目。

点击完整观看 :【走近科学】把城市搬到电脑里

随着这个节目的播出,我们收到了无数的电话和问询,让我们感受到快速三维获取的需求非常多,远远地超出了我们的能力。

有些应用对精度要求非常高,有些对实时性要求非常高,还有更多应用要求处理动态场景。比如面对智慧城市的应用,如果城市的某个地方发生了变化,我们就需要快速进行三维场景更新。而从电影拍摄的需求角度,也需要对一个拍摄场景进行快速数字化。

从三年前开始,我们就开始研究采用机器人来做三维扫描与重建,使整个过程完全自动化。作为第一个尝试,我们让机器人自动获取一个小型物体的三维几何,让机器人一只手拿着物体,另外一只手拿着一个三维扫描仪。

 

机器人自动物体扫描 SIGGRAPH ASIA 2014

机器人会通过计算来决定扫描仪的路径,已达到获得这个物体的全方位信息,同时实时三维重建。这个实验告诉我们,自动获取物体的三维完全是可能的。从技术上来讲,这种获取模式与以往的扫描再处理模式很不一样,不再是序列式处理计算模式,而是在扫描的同时就在重建,在重建的时候计算接下来如何去扫描,这是一个完全的闭环计算模式。

延续这个思路,针对一个室内的场景,让机器人在场景内自主移动扫描,它可以实时决定往什么地方走,去扫描什么样的地方,直到把这个屋子里面的三维场景完全获取。

   

机器人室内自动扫描 SIGGRAPH ASIA 2015

这些实验的成功给了我们非常多的信心。其实,机器人不只是行走在地上,也可以飞行在空中。随着无人机的广泛普及,采用无人机来快速获取影像,自主导航,是否也可以形成自动采集与重建的闭环呢?这是一个值得尝试的事情。从2009年开始。我们就和大疆来合作,尝试如何通过航拍得到的影像来进行三维重建。比如现在我们看到的这样的一个视频,显示的是对一个航拍重建的场景的三维漫游。

 

基于航拍影像的三维重建与漫游

03 捕获现实在电影里的应用

有了这样快速获取三维场景的手段之后,尽管很多行业都可以受益于这种技术,但我们考虑一下电影吧。这是徐浩峰导演的一个新片,叫做《刀背藏身》,一部武侠片,在长城拍摄的。

 

《刀背藏身》开机合影

我们高精尖创新中心进行了一些实验,把拍摄地长城三维数字化,给导演前期规划和后期的制作提供数字支撑。在这个视频里,我们看到一个虚拟相机的拍摄,效果如同实体相机拍摄实际的场景一样。演员的表演可以实时叠加到虚拟场景里,虚拟相机就能“拍摄”到虚实融合的视频画面。

针对未来影像,我们还需要三维捕获现实中动态的目标和事件,这往往更具挑战。比如这是一个在持续生长的植物,我们也持续获得它的三维影像,并快速地重建和分析。这个对于未来影像的意义就是可以激发实现更多的创意。比如说对于一朵花,在它盛开的全过程中,我们获得了它的三维影像,这样的三维影像,可以从任何一个角度去显示。

 

生长植物扫描 SIGGRAPH AISA 2013

再往前走一步,如果我们可以获得不仅仅是三维几何,还可以获得该物体的物理属性,比如说这朵荷花。

我们通过扫描得到了其三维影像,后来又对它的物理参数进行了获取。两者都有了以后,我们就可以在计算机上进行仿真模拟,我们可以让水珠落下来,或者是吹一股轻风,模拟它在外力下的婀娜多姿,这给未来的创作提供了巨大的空间。

04 人物情绪合成

说到影像,人物是我们最关注的东西。在动作捕捉方面,业界已经做了非常多的工作了。最近我们在尝试一个工作,是在获得人物的动作之后,不只是简单地用这样一个动作来控制动漫,而是赋予它新的表演内涵。比如说这段舞蹈。

 动图

我们是不是可以让这个演员看起来更兴奋一些?或者更加沮丧一些?等等。赋予一段舞蹈新的情感,这些都可以根据剧情的需要在后期通过计算机来自动合成。

 动图

高兴情绪

 动图

悲伤情绪

 动图

捕获的人物表演针对不同情绪的合成

所有这些对现实的捕获,最后还是为了我们的艺术创作。在差不多十多年前,我们也尝试过对于捕获的三维场景进行艺术化的表现。对于三维数字化的场景,我们有更多的信息来更好更自由地处理影像,得到不同风格的艺术绘制,可以是风格略有不同的素描效果,或者卡通式,或者水彩画效果。

 

素描效果 Northrop Mall, U of M

 

卡通效果 Back of Walter Library,U of M

 动图

水彩画漫游效果 Stone Arch Bridge, Minneapolis

最后给出的几幅画在博物馆里作为数字艺术展示过,尽管过去了十多年,每次看到这些画,都会体会到一种新的生动。现实的捕获,从静止到动态,从形状到物理,会给艺术创作提供越来越丰富、越来越有内涵的素材。

扫一扫在手机上阅读本文章