博士答辩人没来，导师还能赞不绝口！上海交大ACM校友实力演绎学以致用

时间: 2020-08-24来源：博客园

前景提要

　　边策萧箫发自凹非寺
　　量子位报道公众号 QbitAI
　　疫情之下，我们已经看惯了线上的一切：云毕业典礼、云学术会议、云发布会。
　　但这些“云”终究让人感觉没“内味”。
　　因为没有身后的 PPT 投影、手舞足蹈的演讲，终归都是没有灵魂的！
　　所以，上海交大 ACM 班校友、南加州大学在读博士黄锃用专业知识，给自己办了场特殊的博士论文答辩。

　　他只有一个摄像头，家里没有投影仪，却把自己的答辩会办得像在礼堂演讲一样。
　　演讲人从 2D 变成 3D，卧室背后的白墙也变成自己展示论文 PPT 的幕布。
　　右上角就是真实的黄锃同学，他一边演讲，电脑实时把他变成 3D 模型投影到场景中，导师们看到这一幕不禁笑了，随手就是一个转发。

　　在黄锃同学的主页上，我们发现了他的学弟李瑞龙早就开始“整活”，验证了 3D 论文答辩的可行性。

　　现在黄锃同学的这项研究已经被 ECCV 2020 收录。
　　背后的技术
　　黄锃过去就一直从事 3D 图像重建的研究工作，去年他参与的一项研究 PIFu （像素对齐隐式函数）可以从单张图片重建完全纹理的 3D 人体图像。

　　但是因为 PIFu 对硬件的要求很高，导致该技术并不能用于实时的图像重建。
　　为此，黄锃和团队里的李瑞龙、修宇亮等一起提出了一种新颖的分层表面定位算法，和一种无需显式提取表面网格的直接渲染方法。
　　通过从粗到细的方式选择不必要的区域进行评估，成功地将 3D 重建速度提高了两个数量级，同时没有降低质量。
　　结果证明，这种从单摄像头实时重建 3D 视频的方法，处理速度可达 15fps，3D 空间分辨率为 256 3 。

　　为了减少实时 3D 重建所需的计算量，作者引入了两种新颖的加速技术：基于八叉树的鲁棒表面定位、无网格渲染。
　　由于算法流水线的主要瓶颈，是要在过多的 3D 位置上进行估计，因此，减少要估计的点数将大大提高性能。
　　八叉树是用于有效形状重构的通用数据表示，它可以分层减少存储数据的节点数量。
　　作者提出的这种表面定位算法，保留了原来靠蛮力重建的准确性，而且复杂度与基于朴素八叉树的重建算法相同。
　　此外，作者通过直接从 PIFu 生成的视图渲染，来绕过显式网格重建阶段。下图展示了无网格渲染算法的原理，虚线和实线分别表示真实表面和重建表面。

　　结合这两种算法，可以实时从任意角度快速渲染 3D 图像。
　　该算法还面临一个问题，那就是有些特殊的姿势和视角很难恢复，因为它们只在训练数据集中占据很小的一部分。
　　一般的方法是进行数据扩展，但是对于这种 3D 数据来作扩增是很困难的。
　　然而，之前的研究证明，改变数据采样分布会直接影响重建的质量，于是作者找到了一种解决训练数据偏差的方法 OHEM。
　　其关键思想，是让网络自动发现困难的样本，自适应地更改采样概率。
　　最后，作者的方法在没有任何超参数的情况下实现了最快加速，在保持原始重建精度的同时，处理速度从 30 秒减少到 0.14 秒。
　　与无网格渲染技术相结合后，处理一帧图像的时间只需 0.06 秒。系统的总体延迟平均为 0.25 秒。

　　这种方法不需要搭建搭建具有多个视角摄像头的工作室，让普通人也能用上实时的 3D 演讲视频。
　　作者指出，本文的主要贡献点在于：
　　1、从单眼视频中实时生成 3D 全身视频，可以在各种姿势和服装类型下构造出完全纹理的衣服，而不受拓扑约束。
　　2、提出一种渐进式表面定位算法，可使表面重建比基线快两个数量级，而且不会影响重建精度，在速度和正确性之间做了很好的取舍。
　　3、提出无需明确提取表面网格即可直接用于视图合成的渲染技术，进一步提高了整体性能。
　　4、提出一种有效的训练技术，可解决合成生成的训练数据不平衡问题。
　　和全息投影相比？
　　乍一看投影效果，是不是想到了马云今年在人工智能大会上，利用商汤全息投影完成的演讲？

　　 △ 来源于微博@澎湃新闻
　　虽然也是将人的影响投影到另一处场景中，不过二者的性质完全不同。
　　全息投影成像的原理，是利用光的干涉和衍射，再现出物体真实的三维图像记录。
　　而这次的虚拟答辩效果，实际上是利用 AI 将摄像头拍到的 2D 人物图像，转换成 3D 的效果。
　　也就是说，二者无论是从原理、还是从设备需求来说都不一样。
　　不仅如此，应用的场景也有所不同。
　　全息投影更侧重于真实场景下「互动」的效果，也就是说，你在线下场景中，可以与一个投影出的 3D 版「真人」互动、或是听一场 3D 全息投影的演唱会等。

　　但这次的虚拟 3D 生成技术，则是侧重于在电子设备上将 2D 图像视频模拟出 3D 效果。
　　无论是单薄的 2D 视频、还是无法利用视频呈现的 2D 照片，利用这项技术都可以还原出仿真的人物形象。
　　也就是说，一台摄像机拍出来的普通 2D 效果，利用这项技术就能转换成效果斐然的 3D 图像。
　　关于作者
　　用这项技术答辩的黄锃，本科毕业于上海交通大学 ACM 班。而这项实时技术的主要贡献，则来自他合作的两位学弟。

　　这篇论文的两个同等贡献的第一作者，分别是两位黄锃的博士一年级学弟李瑞龙、修宇亮。
　　李瑞龙毕业于清华基础科学班，在清华获得了物理和数学学士学位，以及计算机科学硕士学位。

　　修宇亮则毕业山东大学软件工程学院数字媒体技术专业，本科期间他还是专业第一，之后进入上海交大获得计算机硕士学位。

　　至于黄锃自己，他在高中时就曾获得全国中学生物理奥赛金牌，进入上海交大 ACM 班就读后，本科四年均获奖学金，还顺便在数学建模美赛（MCM）上拿了个一等奖。
　　本科期间，黄锃曾在微软亚洲研究院实习，师从首席研究员曾文军，参与机器学习、深度神经网络相关的科研课题中。

　　 △ 曾文军，图源：微软亚洲研究院
　　也是在这里，他开始深入地认识和掌握深度学习的核心概念和技巧，也开始认真思考机器学习的现状和发展。
　　李瑞龙、修宇亮、黄锃均师从计算机图形学领域有名的黎颢教授，主要研究方向是结合几何处理和深度学习的虚拟人体重建。

　　 △ 黎颢
　　博士期间，黄锃曾在 Facebook 实习，共有 9 篇论文发表在论文顶会上，其中 SIGGRAPH 1 篇，ECCV 2 篇，CVPR 2 篇，ICCV 3 篇，ICLR 1 篇。
　　黄锃最近的一项研究 ARCH ，则发表在 CVPR 2020 上，这项研究主要是关于穿着衣服人的 3D 可动画化重构。

　　而黄锃最「出圈」的研究，是一项名为 PIFu 的 2D 图像转 3D 技术，在国外的社交媒体上被网友拿来模拟了各种 2D 物体图像。
　　有日本网友利用 PIFu 的技术，将照片上的奥黛丽·赫本和坂本龙马「请」到了自己的家里。

　　3D 的效果还是很不错的。（就是，黑白的图像看起来略有点阴森…）
　　论文地址：
https://arxiv.org/abs/2007.13988
　　视频介绍：
https://www.bilibili.com/video/av753971174/
　　黄锃个人主页：
https://zeng.science/