keywords Google scholar - GE Hinton Stacked capsule autoencoders NeurIPS2019 Advances in Neural Information Processing Systems Adam Kosiorek, Sara Sabour, Yee Whye Teh, Geoffrey E Hinton Oxford Google Brain, DeepMind capsule networks Cite Code Project 目录 Motivation Motivation Canonical capsules: Unsupervised capsules in canonical pose arXiv preprint arXiv:2012.04718 Weiwei Sun, Andrea Tagliasacchi, Boyang Deng, Sara Sabour, Soroosh Yazdani, Geoffrey Hinton, Kwang Moo Yi University of British Columbia, University of Toronto, University of Victoria Google 3D pointclouds Cite Preprint 目录 Motivation overview decomposition canonicalization Motivation unsupervised capsule architecture for 3D point clouds overview decomposition 把点云 $\boldsymbol{P} \in \mathbb{R}^{P \times D}$ 用一个encoder计算出K-fold attention map $\boldsymbol{A} \in \mathbb{R}^{P \times K}$ 和逐点的feature $\boldsymbol{F} \in \mathbb{R}^{P \times C}$ 然后计算 $k$ -th capsule的pose $\boldsymbol{\theta}_k \in \mathbb{R}^3$ 和对应的capsule descriptor $\boldsymbol{\beta}_k \in \mathbb{R}^C$ $\boldsymbol{\theta}k = \frac {\sum_p A{p,k}P_p} {\sum_p A_{p,k}}$ $\boldsymbol{\beta}k=\frac {\sum_p A{p,k}F_p} {\sum_p A_{p,k}}$ 其实就是attention map加权和后的点坐标和attention map加权和后的点feature canonicalization 单纯地保证不变性和等变性并不足以学出一个object-centric的3D表征,因为缺乏一种(无监督)的机制来==bring information into a shared “object-centric” reference frame== 并且,一个"合适"的canonical frame其实就是一个convention,所以我们需要一个机制让网络做出一个**选择**——并且必须在所有物体中都是一致的 比如,一个沿着+z轴放置的飞机和一个沿着+y轴放置的飞机是**一样好**的 为了实现这一点:link the capsule descriptors to the capsule poses in canonical space;i.<GRAF> GRAF: Generative radiance fields for 3D-aware image synthesis NeuralIPS2020 Advances in Neural Information Processing Systems Katja Schwarz, Yiyi Liao, Michael Niemeyer, Andreas Geiger MPI Cite PDF Code Project 目录 Motivation 注:笔记在纸质版。待迁移电子版 Motivation While 2D generative adversarial networks have enabled high-resolution image synthesis, they largely lack an understanding of the 3D world and the image formation process.
Thus, they do not provide precise control over camera viewpoint or object pose.
因为2D GAN缺少对3D世界的理解;缺少图像生成过程的理解,所以不能提供对于camera viewpoint和物体pose的精确控制。<GIRAFFE> Giraffe: Representing scenes as compositional generative neural feature fields CVPR2021 ✔️ BEST Proceedings of the IEEE/CVF conference on computer vision and pattern recognition Michael Niemeyer, Andreas Geiger University of Tübingen MPI Cite PDF Code 目录 编者按 Motivation overview 注:目前笔记在纸质打印版,待后续迁移电子版 编者按 用neural rendering “避开"了多物体lighting的显式建模 Motivation overview <OSF> Object-centric neural scene rendering arXiv2020 arXiv preprint arXiv:2012.08503 Michelle Guo, Alireza Fathi, Jiajun Wu, Thomas Funkhouser Stanford Google object-centric neural scattering functions Cite Preprint Project 目录 编者按 Motivation Overview 📌 Ray Sampling 编者按 相比于组成式,其实更关注多物体之间的 Lighting 物体 pose 都是真值 相比于 GIRAFFE,把多物体的光照、反射等处理地很好了;GIRAFFE 是用 neural rendering 逃避了显式地建模光照和多物体透射反射,这篇文章直面难题,类似 Neural Reflectance Field 看上去物体位置、id 都是真值,重点主要是建模好多物体的光照 Motivation OSF(object-centric neural scattering functions) models per-object light transport modeling dynamic scene:物体在移动/有无,光源在移动 Overview 数据集 furniture-single furniture-random 25 个动态的场景,每个包含多个物体的随机 layout furniture-realisitc 📌 Ray Sampling <Neural Scene Graphs> Neural scene graphs for dynamic scenes CVPR2021 Proceedings of the IEEE/CVF conference on computer vision and pattern recognition Julian Ost, Fahim Mannan, Nils Thuerey, Julian Knodt, Felix Heide TUM, Princeton University Algolux dynamic scenes, KITTI, category-level nerf from KITTI, inverse rendering for detection Cite Preprint Project 目录 编者按 Motivation Overview Scene graph 定义:注意不是传统的 scene graph 中的 graph 的定义,事实上较为 hand-crafted 类别级表征模型:文中描述定义为"augmented nerf"/“增广 nerf”,其实就是类似 GRAF/CGAN 的条件 nerf/conditional nerf 渲染框架 Result 额外应用:利用逆向神经渲染进行物体检测:🚀 是我想要的思路! 不足与 future work Implementation 编者按 不是传统的 scene graph 中的 graph 的定义,事实上较为 hand-crafted; 额外把类别级表征模型也放到图里了,并且额外定义了一具体物体表征到类别级表征模型的边,事实上就是为了表达下某个物体属于某个类别(还有不同 scale),没有什么意义,这样的定义造成了全文的记号混乱,很多地方把类别级表征模型和具体物体表征混为一谈 用到的数据: tracking 信息;自动驾驶 tracking 数据集 视角信息,内外参 物体 3D bbox video 事实上做了什么 利用 KITTI 数据集的 3d bbox 和物体位置标注数据,以及图像,学习了几种类别(卡车、轿车、大巴)的 nerf-based 的 asset bank(即类别级 nerf 表征) 在有 3d bbox 和物体位置标注的情况下,完成了 动态前景+背景解耦、背景 inpainting 等 额外利用逆向神经渲染过程简单尝试了下最优化迭代 BEV 视角下的 bbox 实现检测 用到了 motion clue 来自监督地检测物体、追踪物体姿态? 没有。有 3D bbox 真值、tracking 信息/物体位置信息真值 是否做到了重新光照?还是只是简单的同处移位? 只是简单的同处移位。还是 nerf 设定的一贯问题:view-dependent 效应 现在 纯粹由物体本身决定(baked-in 物体),没有环境光的解耦建模,和环境没关系 Motivation 主要是为了 model dynamic scenes;graph 是显式的 graph task:做了什么 动态场景分解与操作topic: object 6D pose estimation from images paper method DPOD: 6D Pose Object Detector and Refiner [ICCV2017] SSD-6D: Making rgb-based 3d detection and 6d pose estimation great again extended the ideas of the 2D object detector [20] by 6D pose estimation based on a discrete viewpoint classification rather than direct regression of rotations. 用离散的viewpoint分类而不Preliminaries 众所周知,NeRF 使用的是 volume graphics 中的 emission-absorption 模型,换句话说,在 nerf 的设定下,场景、物体都是自发光、自吸收光的粒子云, 完全没有环境光照的影响。即,nePreliminaries NeRF 的稠密采样过程需要耗费大量的时间、算力资源;同时,这种不在乎物质密度分布的采样,对于实际 unconstrained 场景(比如城市场景,有近景也有非常远的背景)也<NR-NeRF> Non-rigid neural radiance fields: Reconstruction and novel view synthesis of a dynamic scene from monocular video arXiv preprint arXiv:2012.12247 Edgar Tretschk, Ayush Tewari, Vladislav Golyanik, Michael Zollhöfer, Christoph Lassner, Christian Theobalt MPI, facebook rigidity score, divergence loss, dynamic/deforming scenes decoupling, canonical NeRF volume, spatial deformation Cite Preprint Code Project 目录 贡献/结论 Motivation overview deformation model 变形的模型:ray bending / space warping losses reconstruction loss 重建loss offset loss 通过sparsity loss约束变形的Offset:希望Offset场在空间中是稀疏的 divergence loss 散度loss view dependence results 贡献/结论 消费者级的相机就足够合成简单、短时场景的让人信服的bullet-time videos ;单目视频的free viewpoint rendering,将场景解耦为静态表征和变形 表征允许视野、时间之间的相关性估计 提供场景中每个点的rigidity score刚性评分;一个rigidity network来吧场景分为非刚体前景和刚体背景,没有直接监督信号;是一种空间场中的连续加权和,不是显著的离散划分 Motivation 用非刚体(可形变的)nerf来表征一个包含动态可变物体的视频<GRF> Grf: Learning a general radiance field for 3d scene representation and rendering arXiv preprint arXiv:2010.04595 Alex Trevithick, Bo Yang Oxford encoder-decoder Cite Preprint 目录 Motivation 主要做法 构成:四个部件,连接起来,端到端的训练 Motivation NeRF + encoder-decoder结构 用一个 single forward pass infer出novel scene representations encoder输入:2D images + camera poses + intrinsics encoder输出:neural radiance fieilds 主要做法 为每一个light ray (pixel) 提取general features 把features重投影到query 3D point p上 然后从p的feature infer出RGB和volume density 关键在于:对于任意同一个点,从不同的角度看来的feature是始终一样的,因此不同view的这个点渲染出的RGB和volume density也会保持一致 构成:四个部件,连接起来,端到端的训练 对每一个2D pixel的feature extractor 一个reprojector,从2D feature到3D空间 做了一个简单的假设:一个像素的feature,是对这个ray上的每一个点的描述 所以就是把一个query 3D point重投影到每一个输入view上,来从每一个输入view对应点的2D feature得到这个3D point的feature 如果重投影的点落在图像内,那就选最近邻的像素的feature 如果在图像外,就给一个零向量 一个aggregator,得到一个3D点的general features 这里的挑战性在于:Input images的长度是可变的,并且没有顺序;因此,通过reprojector获取到的2D features也是没有顺序、任意尺寸的 因此把这里定义为一个注意力聚集过程 一个neural renderer,来infer出那个点的外观和几何 <pixelNeRF> Pixelnerf: Neural radiance fields from one or few images CVPR2021 Proceedings of the IEEE/CVF conference on computer vision and pattern recognition Alex Yu, Vickie Ye, Matthew Tancik, Angjoo Kanazawa UCB scene prior/category, CNN encoder Cite Preprint Code Project 目录 编者按 Motivation Main components multi-view aggregation 方式 编者按 和GRF思路类似;每个点除了空间坐标以外,还额外condition一个feature,这个feature来自于把这个点重投影到input view之后索引出的input view feature space下的feature 作者评价的与GRF的区别 本篇在view下操作,而不像GRF那样在canonical space下操作,因此本文方法可以适用于更一般的设定; 本文方法的效果更好(笔者注:从web 视频来看,在少量view输入合成任务下的效果非常好) Motivation image-conditioned NeRF To overcome the NeRF representation’s inability to share knowledge between scenedatasets SUNCG (until now, 2021-01-10) scannet scenenet scenenet RGBD 由于随机生成场景时是"从空中往下落"的设定,很多random的场景重度散乱,渲染是realistic了这篇为测试博客