GRF: LEARNING A GENERAL RADIANCE FIELD FOR 3D SCENE REPRESENTATION AND RENDERING
<GRF>
Grf: Learning a general radiance field for 3d scene representation and rendering目录
Motivation
- NeRF + encoder-decoder结构
- 用一个 single forward pass infer出novel scene representations
- encoder输入:2D images + camera poses + intrinsics
- encoder输出:neural radiance fieilds
主要做法
- 为每一个light ray (pixel) 提取general features
- 把features重投影到query 3D point p上
- 然后从p的feature infer出RGB和volume density
- 关键在于:对于任意同一个点,从不同的角度看来的feature是始终一样的,因此不同view的这个点渲染出的RGB和volume density也会保持一致
构成:四个部件,连接起来,端到端的训练
- 对每一个2D pixel的feature extractor
- 一个reprojector,从2D feature到3D空间
- 做了一个简单的假设:一个像素的feature,是对这个ray上的每一个点的描述
- 所以就是把一个query 3D point重投影到每一个输入view上,来从每一个输入view对应点的2D feature得到这个3D point的feature
- 如果重投影的点落在图像内,那就选最近邻的像素的feature
- 如果在图像外,就给一个零向量
- 一个aggregator,得到一个3D点的general features
- 这里的挑战性在于:Input images的长度是可变的,并且没有顺序;因此,通过reprojector获取到的2D features也是没有顺序、任意尺寸的
- 因此把这里定义为一个注意力聚集过程
- 一个neural renderer,来infer出那个点的外观和几何