[行业]Unite 2018 ｜未来影像，影向未来

05月

430 0 0

来自北京电影学院未来影像高精尖创新中心的总体研究部副主任王春水，在Unite Beijing 2018大会上进行了主题为《未来影像，影向未来》的演讲。与大家探讨未来影像领域将会如何发展，Unity的创新技术将如何应用于影像产业，以及步入高维影像时代的关键问题。

下面是演讲内容：
大家好，很高兴Unity提供这么一个机会。在Unite Beijing 2018大会上，很多Unity的专家讲的都是技术细节的东西，我分享的内容稍微宏观一些。

我是来自北京电影学院，我们有一个新成立的研究机构叫未来影像高精尖创新中心。我今天的演讲主题是《未来影像，影向未来》。主要内容二个部分：第一部分，讲什么是未来影像，我们中心这些科学家对未来影像的理解。第二部分，讲一下我们中心基于这种概念做了哪些工作。

什么是影像？

现在大家想了解一个概念，首先想到我们去维基或者是百度进行查询。关于影像的概念，有很多概念性的东西，你可能看定义它很晦涩，但是你会发现，其实影像定义有很多种，这个一查就能查到。但是无论怎么查，影像总是跟一个东西相关联，就是视觉。它总是和视觉相关联，提到影像就不能不说人的视觉，影像和视觉二者又是什么关系？

首先谈一下人类视觉形成的过程。

我们看真实世界中的物体，人类的视觉生成可以基于真实世界，主要视觉来源是从真实世界中。一个真实世界物体要么是自发光，要么反光。物体发出光，这个光被我们人眼接接收到。我们人眼是一个光学系统，经过光学系统，会在视网膜上成像，这其实也是影像的意思。这个东西到底是不是视觉？

我把前半部分叫客观成像系统，并不依赖于人的心情和环境，最终经过人的神经系统，最终这个视觉形成是在人的大脑里形成的。我们形成的视觉都是主观的，不管你客观世界什么样的，它都要经过一系列过程，最终大脑里才形成一个印象，这个东西叫做视觉。

人类一直在想象，例如：我想看一个现实中的树，一个动物，但是我没有这个实物的情况下，我能不能看到它？

在不断的尝试下，人类就发明了影像系统。例如：我们看到电视电影，现在有很多这种影像系统，它的一个作用是代替了实物。我如果想看一棵树，无论是动态还是静态的，我并不一定在实际环境中观看，我只需要有一个影像系统代替这个实物，它只要能发出光，通过一系列过程我们也能得到最终的视觉。这个是影像系统和视觉之间的关系。

最终形成视觉有很多种办法，最直接的是拿一个屏幕看一段影像。还有一种方法，可能把人眼代替，比如电子眼。最终可能有一种情况，比如脑袋上插管，直接看到。目前来讲比较现实的，很长一段时间里，如果想让人得到模拟人类视觉的话主要是影像系统，在这个部分去下工夫。

人类看过影像系统过程其实非常长，很早就开始了，它经历过很多的时代。

最早从古代的岩画就已经开始，这是人最初的一种尝试，通过影像来表达一个概念，或者跟人传达信息的时候。例如：我知道一棵树，我并不一定把一棵树摆到面前，稳可以绘画出来，随之演化出符号和系统文字。

后来绘画系统发展的越来越成熟，到了十九世纪，达芬奇等大师他们已经把绘画研究的非常透彻了，非常成熟，非常接近我们后来照相的东西。为什么已经很接近了？在那个时代已经有很多画家利用很多照相技术辅助画作，只不过当时没有很好的成像技术。像达芬奇这样的大师，既是艺术家，又是数学家，他们用了很多科学和工程的方法来辅助自己的绘画。

后来人类发明了照相机，不用手去绘笔，就能把影像记录出来。之后发明了电影，这是一个标志性的时代，人们不仅能记录静态影像，也能记录动态影像，无论是胶片技术电影，包括电视和现在的手机记录的东西，从技术来讲，我们有一个统一的词汇是“活动影像”，其实本质是类似的。

技术不断的发展，介质也在发展。1895年发明的动态影像和现在的影像本质上有很多东西是类似的，对现实世界的记录是动态记录，而不是单纯的静态记录。

电影行业很有名的理论家讲了一个人类心理上的原理，叫“木乃伊情结”，人总是惧怕死亡的，人总想追求永恒的东西，从脸蛋到长生不老，包括各种宗教都在讲，佛教讲轮回，教讲最后上天堂，其实都在追求一种永恒，其实都是基于人对于死亡的一种恐惧。我们知道，古埃及做木乃伊，把东西保存下来。人做这样的尝试有很多种方法，影像就是其中一种方法。

人总是想把真实的世界整个复制还原出来，以为通过这种方法，能够得到一些永恒。所以，为了复制这个世界，有一个要求就是这个世界一定是复制成真的，如果你想复制世界肯定不想复制成世界，一定是跟现实越接近越好。

人的整个影像发展过程中一直遵循这个脉络，包括我们现在有了新技术之后，大家要么是更正这些新的技术，比如VR，这个东西是不是一时的热潮还是以后会成为趋势，就要看它符合不符合人类对影像发展的趋势，其实它的趋势就是真实感。真实感有二种：理性真实感和感性真实感。

我们看人类的影像，一直有这么一个发展过程，它到底遵循了什么样的发展趋势？人在不断使用新的记忆也好、新的技术也好，绘制这个影像的时候到底遵循什么样的趋势？

理性真实感，其实科学分析最终是假的，。有的看上去很真实，有的看上去比真的还真，电影里经常做到这点。因为人最终形成的都是主观印象，能够让你觉得真实的是，你只要有感性的真实感就可以。有一个非常典型的例子，当年CG最早用在电影里的时候有很多失败的例子，一看就是炫技之类的，但是当时有一些非常成功的，其中有一片非常成功的影片是《终结者2》，这里提到了液体机器人。

理性分析你认为这个东西不太容易实现，但是从感性来讲，认为这个东西很多视觉上的规律非常符合人的一些经验，包括融化的过程形状，包括如果有了这样的东西有什么样的力量，这些东西和你的经验比较符合的，所以你看这个片子的时候就不会觉得这个东西假。这就是感性真实感最好的一个例子。

遵循这个发展趋势，从技术上来讲，可以把人类影像发展史分成几个阶段。

最早的阶段是绘制时代，人们只能通过手工方式绘制，这个时代肯定效率很低。 1837年发明了照相术，这是标志性的，人可以通过科学或技术装置直接记录现实世界，而不再用手去绘制了。包括从那个时代到现在，如果你对艺术比较了解的话，现在有当代艺术，当代艺术的特点和以前就不一样，以前我们记录世界是画家这些工匠们的专利，从那之后，现在我们所有人随手拿出手机来，那个时候是照相机，变成了很多人都可以进行记录世界的方式了。这是一个非常重要的分水岭，从那之后进入了影像记录时代影像记录时代中间有个标志，1895年发明了活动影像，整个过程越来越接近人对真实世界的感受。

遵循这个会有什么趋势呢？即是电影，包括我们现在看到的大量东西，它叫活动影像，或者叫二维活动影像，比较平面的，当然，有一些深度的暗示和深度提示，会让人有纵深的感觉，但和人真正的三维视觉差很多。

未来一定是进入全息影像时代，真正三维影像时代，全息时代并不是很新的概念，这个概念人很早就提出来了，甚至古代我们看庄子、老子或者谁谁谁曾经写过的内容，可能已经有一些类似的理念在里面，但是要把它实现确实是很难的。

到底什么叫全息影像？我们数学上怎么表达？现在有一个大家比较公认的全光函数，对于全息来讲怎么描述？

技术达到什么样的程度才能达到全息，全光函数是你能在七个参数方面把这个东西运算或者捕获，处理，显示出来，才能达到一个全光的概念，也就是未来的全息。前二个参数是指光，看最右边的三个参数X、Y、Z，指你的观看位置，因为我们在真实世界中人的观看位置可以自主选择，你要能做到在任何一个位置。

你在任何一个位置朝任何一个方向看，任意一个时间你能模拟出这个方向它的光有多长。这叫作全光函数，如果你能实现你的系统做到这一点，无论你是采用头戴显示的方式，还是使用什么什么成像，有什么什么介质，基本上能够模拟出全息的影像。

人类在这个过程中做了非常多的尝试，为了实现全光函数，人可能是一步一步分步实现。在二维活动影像过程中往前更近一步是立体影像，左右眼分开，再往后有裸眼立体，这二年又出现比较热的是体获取体显示，这是一个概念，把很多二维东西变成三维的，包括我们讲的现在的VR也好，MR也好，又有立体的，同时又有Volumetric显示。

但是它还是有一些问题，尤其对现实捕获过程中，如果你做一个Volumetric的东西，即使现实捕捉的话，某一点如果像素颜色固定的话，你从不同的方向看，当然现实捕捉东西不能把Volumetric捕捉下来，从各个方向看暗流颜色不一样，现在很难做到。

在这种情况下，有人提出光场，往前又更近了一步，做光场的人提的比较多，不同的参数不同的方向，现在也有一些新的创业公司，最有名的是Magic Leap，时不时放出一二个概念视频，现在还没看到实际产品，人在影像真实感的路上是在不断的往前走的，也在不断发展这个概念。

目前实现全息如果能有比较好或者比较低成本的解决方案，我们至少认为这个已经是基本上非常接近我们人类所想象的全息概念了。全息在以前发展有一段路程，空气成像，这个做了很多年，没有什么成果，进步非常慢。反而另外一个行业，手机行业的发展代替了另外一个通过头戴设备去观察全息领域给发展起来了，至少近些年技术路线都是HMD发现，微软的MR眼镜等。

这个过程当中，人们经过很多的尝试，近二年，VR热是一个表现。很多人都在投身VR，VR跟全光对比，它已经实现了很多可能。比如：它和以前所有的影像相比，它的视角和位置是可以自由选择的。

对于VR来言，一是我们很多东西是CG生成的，但是对于实拍的东西是360度全景视频。全景视频限制非常大，首先在全景视频里面你的XYZ不能自由变化，你的视点被摄像机当时的点固定，你可以来回看。所以人在往这个过程中走就看你这七个参数到底实现到哪个程度，就能知道你的技术到哪一步。

例如说XYZ不能走，怎么办？我们有一个方式，用CG方式模拟一个非常真实的环境，我们讲真实感是人追求的一个终极梦想。我不采用捕获的方式，我采用计算机生成模拟出一个世界，但是它成本很高，它的运算量很大。而且如果你做三维都知道，其实展示的时候都很漂亮，你照着做一遍或者变成另外一段，工作量非常大，成本还是很高的。

在实际捕获的领域，世上做的最好的一个叫LYTRO，专门做光场照相机，前些年制作了一段影片，叫《哈利路亚》，至少它的XYZ在一定范围内能够实现。看它的照相机就能看出来，捕获的信息量非常大。但非常可惜的是，这家公司的技术是非常好的，但是他们的设备非常昂贵，所以没有太好的应用商业模式，今年就被Google收购了。但是他们在全息影像的获取，不像Magic Leap，从来没有人见过Magic Leap产品，。LYTRO就是实实在在自己做了很多工作，你们可以去体验，LYTRO技术是非常好的，

下面介绍一下未来影像高精尖创新中心，这是一个科研机构，主要是为了在某些影像前沿领域做研究，也做产业转化。我们主要面向二个前沿科技领域：机器人与工智能。我们有三个研究方向：人脸、运动和智能硬件。

我们中心制作的东西对比LYTRO，在影像发展历史趋势上，都在往前走。LYTRO是比较靠前的，但是很大的问题是没有应用场景，技术的发展有一个问题，技术它没有什么边界。如果你让技术人员自己做一个事情的话，这个项目他可以做一个月，也可以做三年，他在这方面不断优化，这是没有头的。但是你这个东西到底什么是个边界？其实这个东西是和应用场景有关的。LYTRO公司技术做的很好，最大的问题是，它不是面向某些应用场景做，技术不知道发展到什么时候是个度。这个东西做多大分辨率，光场做到什么样，运算程度到什么样才算可以，没有人喊停。我觉得这个是一个单纯技术公司驱动非常大的问题。所以，我们中心是做影像技术的。

为什么中心会放在电影学院呢？我们有一个很重要的理念，我们面向应用场景，我们有三个大的应用场景、影视、展演，包括新形式影像，VR/AR。现在很多人喜欢看球，现在看球转播和以前不一样了，经常有360度，这都是以前没有的，新形式影像。我们是针对一些应用场景做。我们有导演，导演会给你喊停，这个东西做到什么程度已经满足要求了，他会评估你这个东西，我通过什么样的方法补偿你技术方面的问题，这样的话有一定场景，这个东西就能够在行业里形成一个良性循环。

后面分享我们进行虚拟制作得几个案例，我们需要跟整个行业进行接轨。

传统电影拍摄过程是一个非常复杂的过程，尤其是在前期筹备的时候。你们看一个电影拍摄之前，有很多反复的过程，美国的很多电影为什么制作的比较好？它筹备期的过程准备得很充分。中国电影往往筹备期这么多模块要做的情况下，还没做完就匆忙进入拍摄期，就控制不住了。

拍电影不像写小说的过程，我可以从头往后写，一点点往后写。拍电影和飞机装配类似的，它直接就把所有零件全散出去了，不到最后组装看不到整个飞机的，所以片场里面拍，一个演员有什么能力呢？你看到戏是连着的，他跟他说不爱你，哭着的。但是现场不是这样拍的，他可能是先拍，然后再拍说我不爱你了，是完全颠倒的，电影的拍摄是非常复杂的东西，不是大家想象按照情节走的，所以整个过程很复杂，很混乱。

这里存在一些问题，例如因为线性程度很高，经常这个工作还没做完就没办法做下一个工作，如果第一个工作没做完就做下一个工作会带来很多问题，串连度很高。另外生产和设计、制造混在一起，电影拍一个片子为什么那么贵就是因为这个。

我们进行虚拟制作的尝试，一是我们把这二个阶段给分开了，另外因为我们有一个很大的改变，把定点的东西从后期提到前期了，增加了整个进度的并行度。但是做虚拟预演的时候，这是前期的，不是最终的，这是我们目前做的流程。有了剧本之后，通过片库系统，创作预演系统，根据这个生成影片的拍摄计划，现场指导成影片。片库系统，这里也涉及到大量的AI技术，通过影片进行语言分析，跟导演和剧本也要做很多相关的工作。

为了做一个预演系统，有很多的模块，中间是实时渲染及引擎，我们为什么需要使用Unity呢？因为中间需要有引擎支撑。

这是电影《刀背藏身》虚拟制作，影片可能今年会公映，这部电影就跟刚才专家讲的很多东西类似，我们把场景用无人机扫描下来，放在影像里，让摄影师去规划。在长城有两千多个群众演员，有一个调度，他要站在山上摄影师去看，导演说那边站的人不多，要调，那些人从山上下来再爬到另外一个山上，他穿的衣服有什么问题，所以调整的问题很多，大概一个小时过去了。群众演员一天就几十万，要发工资，前面还有明星也要给钱。所以电影拍摄现场过程很复杂，很多导演特别有个性，特别不妥协，这个东西必须拍成这样。制片人很着急，因为烧的都是制片人的钱。

我们现在使用虚拟制作技术，事先把所有东西制作好了，跟群众演员前一天就说好你站哪站哪，这就不会消耗那么多钱，导演和摄影两个人这么沟通就行了。他们去的那天大雾，因为是战争戏，埋的人没法埋，什么都看不见，所以他们看到这个东西特别高兴，里面有很多粉色标志就是知道埋在哪，把炸点埋好了就告诉群众演员不要往那站，否则炸了赔钱更多了。

这是小岳岳演的一个电影－《鼠胆英雄》。Unity引擎在制作这部电影的时候解决了很多问题。因为以前做电影剪辑都是整个片子拍完了，现在这个片子还没拍就剪辑完了，以前从来没有过的，编剧发现有问题，又把东西改了改。

现在Unity对于电影领域很感兴趣，但是我发现Unity很多方向是错的，为什么？因为他们缺应用场景，但实际上电影行业是有不同的需求的，有些东西Unity觉得电影应该这么做，你给导演看，导演根本不关注，但有些别的东西是他关注的。

另外有些东西在美国做合适，在中国做就不合适，像我们做的东西在中国就非常有价值，因为中国的演员现在同时经常签很多戏，都在赶场，特别紧，在美国是不允许这么做的，如果这个演员这么做的话以后就接不到影片了，所以美国对影片规划要求没那么高，就是慢悠悠的，一点点把这个片子花很高成本把它磨出来，中国不一样，中国很快就进入到下一个电影。这个片子拍一半演员都去《奔跑吧兄弟》做节目去了，他就走了。美国很少这样的。所以两个国家应用场景也不一样，有可能就只是这个阶段。

我认为所有的技术开发都基于应用场景，如果抛开这个，自己单纯做东西，你除非做特别超前的研究，否则没有应用。后面有几个方向，除了电影之外，还有大的展演。

从去年到今年，我们参与制作平昌冬奥会“北京8分钟”演出虚拟制作，你们可能在当天看到这个了，我们几个月前就天天反复看这些东西，通过这个系统，使用引擎把所有东西都做出来，不同的系统有很多配合，上面往地下的投影什么时候投什么，演员什么时间到哪个地方，还有机器人到什么地方，我们在引擎里事先做出来，然后给他们。经过了几个影片之后，我们把所有的东西现在不断磨合，形成新的系统，现在做新的影片预演，这个不是游戏，最后做完了都是电影镜头，这么做完之后可以看到，直接和实际影视设备参数一一对应，预演片做完就要出实际的片，这是非常关注的。

我们制作得这些东西进入片场之后最高兴的是制片人，他们觉得特别有意思。游戏行业可能会分得很细，这个东西做成什么样的程度，会给开发者非常清楚的一个用户需求，相比较而言电影行业经常比较乱。制片人找视效公司，但是得到报价都特别特别低，为什么？因为都是低价进来，等做到一半一改就抬价，我已经给你做一半了你再换前面就白做了。但是有了我们的预演系统，说我们镜头你看好了就这么多这样能够合理得衡量成本。所以这些都是制片人非常关注的。

我们制作的系统，你看着可能和游戏画面一样的，其实这里面我们增加了很多应用场景。例如：使用传统光学动捕，成本很高，现在有惯性的，有些漂移，有些基于的，也是用现在AI的东西，原来不用AI，现在要用AI，做的越来越多。可能某一个人动作捕捉的东西，你只要有了应用场景之后就可以把很多技术都用到里面，有的东西你可能看到的不是效果的增加，可能是整个制作成本的降低和效率的提升，里面看起来很简单，其实背后也用了很多最新的技术。

非常感谢Unity提供这个机会分享，谢谢大家！
unite 锐亚教育