SceneFormer: Indoor Scene Generation with Transformers

2020-12-30 2020-12-30 约 1249 字预计阅读 3 分钟

<SceneFormer> Sceneformer: Indoor scene generation with transformers

arXiv preprint arXiv:2012.09793

Xinpeng Wang, Chandan Yeshwanth, Matthias Nießner

TUM

text description, transformer

编者按

对比之前的只能在地上放东西的方法，本篇还可以生成墙上、天花板上的东西，而且整体的真实性得到提到
3D_SLN的被引
笔者评价：
- 手动选择关系族确实会biased，但像这篇这样直接用隐式的transformer捕捉场景的pattern也不合适。它相当于把各种物体的信息全部揉在了一团；如果在场景中添加一个新种类的物体，模型就"傻眼"了、不可适用了；
  - 比如你的数据集卧室里只有床、枕头、柜子，有人就是要往卧室摆个电视机，你能怎么办？或者用户新购买了一种模型在各种屋子都没见过的家具怎么办？如果是本篇的方法，对于这种级别的修改，要在新数据集上**重新训练整个**模型，这显然是不合理、有违自然的；因为新添加的物体种类只是一种增量式的更新，已经学到的知识应该是保留的。
- 比较合适的思路，应该是逐pair、逐category地考虑、建模、构建关系；
  - 关系的种类数 $N$ 不应是个定值；甚至可能不是一个有穷值；关系的划分，可能也不是离散的，而是连续的？是一个此起彼伏的概率密度函数？

任务描述：
- indoor scene generation: to generate a sequence of objects, their locations and orientations conditioned on the shape and size of a room.
  室内场景生成任务：生成一个物体序列，包括物体的位置、朝向，conditioned on 房间的形状和大小
- 现存的大规模室内场景数据集，使得我们可以从user-defined indoor scenes中提取出pattern，然后基于这些pattern生成新的场景
- 未来用处：生成虚拟的室内场景对于内饰供应商有商业价值：可以在AR,VR平台向用户展示，用户可以interactively modify it
现有的方法，除了物体的位置之外，还：
- 依赖于这些场景的2D或3D外观
- 并且对物体之间的关系做出假设
  - 目前有一些需要用到物体关系标注的方法，假定一族固定的、手动设计的物体之间的关系
  - 本篇用transformer机制，直接从物体的raw locations和orientations来提取pattern，避免由于手动选择关系引入的bias
    - 意思就是把pattern当成纯隐的来提取；
    - 一个直接的例子，比如沙发和电视之间的对应 $\Delta pose$ 关系，就比较隐式，文中的方法可以很好的生成
本篇 不使用任何外观信息，并且利用transformer机制自己学出来物体之间的关系
只需要输入 (空)房间的形状，还有房间的文字描述，然后就可以生成整个房间