主页

Survey: compositional nerf

<GIRAFFE> Giraffe: Representing scenes as compositional generative neural feature fields  CVPR2021 ✔️ BEST   Proceedings of the IEEE/CVF conference on computer vision and pattern recognition Michael Niemeyer, Andreas Geiger University of Tübingen    MPI Cite PDF Code   目录 review Motivation overview 注:目前笔记在纸质打印版,待后续迁移电子版 review 用neural rendering “避开"了多物体lighting的显式建模 Motivation overview <OSF> Object-centric neural scene rendering  arXiv2020   arXiv preprint arXiv:2012.

Survey: nerf with dynamic/deforming objects

<NR-NeRF> Non-rigid neural radiance fields: Reconstruction and novel view synthesis of a dynamic scene from monocular video     arXiv preprint arXiv:2012.12247 Edgar Tretschk, Ayush Tewari, Vladislav Golyanik, Michael Zollhöfer, Christoph Lassner, Christian Theobalt    MPI, facebook rigidity score, divergence loss, dynamic/deforming scenes decoupling, canonical NeRF volume, spatial deformation Cite Preprint Code Project   目录 贡献/结论 Motivation overview deformation model 变形的模型:ray bending / space warping losses reconstruction loss 重建loss offset loss 通过sparsity loss约束变形的Offset:希望Offset场在空间中是稀疏的 divergence loss 散度loss view dependence results 贡献/结论 消费者级的相机就足够合成简单、短时场景的让人信服的bullet-time videos ;单目视频的free viewpoint rendering,将场景解耦为静态表征和变形 表征允许视野、时间之间的相关性估计 提供场景中每个点的rigidity score刚性评分;一个rigidity network来吧场景分为非刚体前景和刚体背景,没有直接监督信号;是一种空间场中的连续加权和,不是显著的离散划分 Motivation 用非刚体(可形变的)nerf来表征一个包含动态可变物体的视频

Survey: nerf with encoders

<GRF> Grf: Learning a general radiance field for 3d scene representation and rendering     arXiv preprint arXiv:2010.04595 Alex Trevithick, Bo Yang Oxford encoder-decoder Cite Preprint   目录 Motivation 主要做法 构成:四个部件,连接起来,端到端的训练 Motivation NeRF + encoder-decoder结构 用一个 single forward pass infer出novel scene representations encoder输入:2D images + camera poses + intrinsics encoder输出:neural radiance fieilds 主要做法 为每一个light ray (pixel) 提取general features 把features重投影到query 3D point p上 然后从p的feature infer出RGB和volume density 关键在于:对于任意同一个点,从不同的角度看来的feature是始终一样的,因此不同view的这个点渲染出的RGB和volume density也会保持一致 构成:四个部件,连接起来,端到端的训练 对每一个2D pixel的feature extractor 一个reprojector,从2D feature到3D空间 做了一个简单的假设:一个像素的feature,是对这个ray上的每一个点的描述 所以就是把一个query 3D point重投影到每一个输入view上,来从每一个输入view对应点的2D feature得到这个3D point的feature 如果重投影的点落在图像内,那就选最近邻的像素的feature 如果在图像外,就给一个零向量 一个aggregator,得到一个3D点的general features 这里的挑战性在于:Input images的长度是可变的,并且没有顺序;因此,通过reprojector获取到的2D features也是没有顺序、任意尺寸的 因此把这里定义为一个注意力聚集过程 一个neural renderer,来infer出那个点的外观和几何 <pixelNeRF> Pixelnerf: Neural radiance fields from one or few images  CVPR2021   Proceedings of the IEEE/CVF conference on computer vision and pattern recognition Alex Yu, Vickie Ye, Matthew Tancik, Angjoo Kanazawa UCB scene prior/category, CNN encoder Cite Preprint Code Project   目录 Review Motivation Main components multi-view aggregation 方式 Review 和GRF思路类似;每个点除了空间坐标以外,还额外condition一个feature,这个feature来自于把这个点重投影到input view之后索引出的input view feature space下的feature 作者评价的与GRF的区别 本篇在view下操作,而不像GRF那样在canonical space下操作,因此本文方法可以适用于更一般的设定; 本文方法的效果更好(笔者注:从web 视频来看,在少量view输入合成任务下的效果非常好) Motivation image-conditioned NeRF To overcome the NeRF representation’s inability to share knowledge between scene