目录

目录

SceneFormer: Indoor Scene Generation with Transformers


<SceneFormer> Sceneformer: Indoor scene generation with transformers

编者按

  • https://longtimenohack.com/posts/paper_reading/2020arxiv_wang_sceneformer/image-20210110012528951.png
  • 对比之前的只能在地上放东西的方法,本篇还可以生成墙上、天花板上的东西,而且整体的真实性得到提到
  • 3D_SLN的被引
  • 笔者评价:
    • 手动选择关系族确实会biased,但像这篇这样直接用隐式的transformer捕捉场景的pattern也不合适。它相当于把各种物体的信息全部揉在了一团;如果在场景中添加一个新种类的物体,模型就"傻眼"了、不可适用了;
      • 比如你的数据集卧室里只有床、枕头、柜子,有人就是要往卧室摆个电视机,你能怎么办?或者用户新购买了一种模型在各种屋子都没见过的家具怎么办?如果是本篇的方法,对于这种级别的修改,要在新数据集上**重新训练整个**模型,这显然是不合理、有违自然的;因为新添加的物体种类只是一种增量式的更新,已经学到的知识应该是保留的。
    • 比较合适的思路,应该是逐pair、逐category地考虑、建模、构建关系;
      • 关系的种类数 $N$ 不应是个定值;甚至可能不是一个有穷值;关系的划分,可能也不是离散的,而是连续的?是一个此起彼伏的概率密度函数?

Motivation

  • 任务描述
    • indoor scene generation: to generate a sequence of objects, their locations and orientations conditioned on the shape and size of a room.
      室内场景生成任务:生成一个物体序列,包括物体的位置、朝向,conditioned on 房间的形状和大小
    • 现存的大规模室内场景数据集,使得我们可以从user-defined indoor scenes中提取出pattern,然后基于这些pattern生成新的场景
    • 未来用处:生成虚拟的室内场景对于内饰供应商有商业价值:可以在AR,VR平台向用户展示,用户可以interactively modify it
  • 现有的方法,除了物体的位置之外,还:
    • 依赖于这些场景的2D或3D外观
    • 并且对物体之间的关系做出假设
      • 目前有一些需要用到物体关系标注的方法,假定一族固定的、手动设计的物体之间的关系
      • 本篇用transformer机制,直接从物体的raw locations和orientations来提取pattern,避免由于手动选择关系引入的bias
        • 意思就是把pattern当成纯隐的来提取;
        • 一个直接的例子,比如沙发和电视之间的对应 $\Delta pose$ 关系,就比较隐式,文中的方法可以很好的生成
  • 本篇 不使用任何外观信息并且利用transformer机制自己学出来物体之间的关系
  • 只需要输入 (空)房间的形状,还有房间的文字描述,然后就可以生成整个房间

dataset

  • large object and scene datasets: ModelNet, ShapeNet,
  • and other human-annotated scene datasets with synthetic objects / human-created scene dataset:
    <SUNCG>Semantic scene completion from a single depth image. CVPR2017
    • 去掉bad samples, as previous works done :
      • [Planit: Planning and instantiating indoor scenes with relation graph and spatial prior networks. TOG2019 ]
      • [Fast and flexible indoor scene synthesis via deep convolutional generative models. CVPR2019 ]
    • 最后得到 6351个卧室和1099个living room
    • 卧室使用50种物体类型,客厅用39个物体类型
    • 房间:用(0,90,180,270) degrees的旋转来增强数据集;位置(0,0.5)均匀分布采样
    • 房间的句子描述数据用的是heuristic的方法来产生(也就是hand-crafted)

Overview

  • auto-regressive自回归方式:第 $(n+1)^{th}$ 物体的属性 conditioned on 前n个物体的属性
  • https://longtimenohack.com/posts/paper_reading/2020arxiv_wang_sceneformer/image-20210110012645852.png
  • https://longtimenohack.com/posts/paper_reading/2020arxiv_wang_sceneformer/image-20210110012809862.png

results

  • 如果没有给出房间形状,则用一个room-shape prior来放置物体https://longtimenohack.com/posts/paper_reading/2020arxiv_wang_sceneformer/image-20210110013923150.png

future work

  • 可以用于真实场景的3D重建