目录

目录

Explaining the Ambiguity of Object Detection and 6D Pose From Visual Data


Explaining the ambiguity of object detection and 6d pose from visual data

https://longtimenohack.com/posts/paper_reading/2019iccv_manhardt_explaining/image-20201102121246748.png

Motivation

  • 3D object detection and pose estimation from a single image are two inherently ambiguous problems.
  • 很经常的,不同viewpoints下的物体由于对称性、遮挡和重复的材质出现相似的外观
  • 检测和pose估计中都带有的ambiguity意味着物体实例可以被几个不同的pose甚至结构不同的类别完美描述
  • 这个工作中,我们显式地处理这些ambiguity
  • 对于每个物体实例,我们预测多个6D pose 输出来估计 由对称性和重复材质产生的具体的pose分布
    当视觉外观可以uniquely identifies 只有一个有效的pose时,这个分布collapses to 单个输出
  • 优势:不仅是对pose ambiguity更好的解释,同时也在pose估计上实现了更好的精确度

ambiguity in object detection and pose estimation的正式建模表述

  • 描述刚体transformations: $SE(3)$, 它是 $SO(3)$和$\mathbb{R}^3$的semi-direct product
    • 对于$\mathbb{R}^3$,我们使用欧几里得3-vectors
      • 对于$SO(3)$,用 the algebra of $\mathbb{H}_1$ of unit quaternions 来model $SO(3)$中的空间旋转
      • a quaternion is given by $\boldsymbol{q}=q_1 \boldsymbol{1}+q_2 \boldsymbol{i}+q_3 \boldsymbol{j} + q_4 \boldsymbol{k}=(q_1,q_2,q_3,q_4)$, with $(q_1,q_2,q_3,q_4) \in \mathbb{R}^3$ and $i^2=j^2=k^2=ijk=-1$
      • we regress the quaternions above the $q_1=0$ hyperplane 并且因此忽略掉souther hemisphere,这样任何3D rotation可以被单个的quaternion表达
    • 在有ambiguity的情况下,a direct naive regression of the rotation as a quaternion将带来很糟糕的结果,因为网络将会学习到一个closest to all results in the symmetry group的rotation。 这个学出的预测可以被看做(conditional) mean rotation
      • 正式表述:在一个典型的有监督学习的设定下,we associate images $I_i$ with poses $p_i$ in a dataset $(I_i, p_i)$ ;为了描述对称性,我们定义对于一张给定的image $I_i$, the set $\mathcal{S}(I_i)$ of poses 都有这一张相同的image $ \mathcal{S}(I_i)=\lbrace P_J \vert I_j=I_i \rbrace $ 注意对于非离散的对称性,$\mathcal{S}$中将含有无数个poses
      • 直接从$I$回归一个pose $p’$的 naive model $f(I,\theta)$,最小化loss $\mathcal{L}(p,p’)$来最优化 $ \theta^\ast={\underset {\theta}{\operatorname {arg,min} }} \sum_{i=1}^N \mathcal{L}(f_{\theta}(I_i), p_i) $ 然而,从$I$到$p$的映射is not well defined 并且不能被model为一个function
      • 于是,$f$事实上学到的是和$\mathcal{S}(I_i)$中所有点都equally close的一个rotation.
      • Q: multiple pose hypothesis

网络结构

  • SSD-300带一个InceptionV4的backbone,每次检测时额外提供6D pose:每个anchor box提供 $C+M \cdot P$ 个输出:$C$ 代表类别个数,$M$ 代表symmetry hypotheses的个数,$P$ 代表来描述6D pose的参数个数
    • $P=5$,4(explicitly normalized四元数)+1(物体到camera的距离)
    • 剩下的两个自由度通过把2D检测框的中心用深度back-project可以获得
  • loss
    • class: cross-entropy $\mathcal{L}_{class}$
    • anchor box: L1-norm $\mathcal{L}_{fit}$
    • quaternion: $\mathcal{L}_{rotation}(q,q’)=\arccos \left( 2 \langle q,q’ \rangle^2-1 \right)$
      • $\iff 2\cos^{-1} \left( \lvert \langle q_1, q_2 \rangle \rvert \right)$,等价的,只是用二倍角公式变一下而已
      • $let,\cos\beta=\langle q,q’\rangle$ $2\beta=2\beta ; \Rightarrow \cos^{-1}(\cos 2\beta)=2\cos^{-1}(\cos\beta)$ $\Rightarrow \cos^{-1}(2\cos^2 \beta-1)=2\cos^{-1}\beta$ $\Rightarrow \cos^{-1}(2\langle q,q’ \rangle^2-1)=2\cos^{-1}(\lvert \langle q,q’ \rangle \rvert)$
    • depth: smooth L1-norm $\mathcal{L}_{depth}$