200字范文 > JSIS3D：具有多任务点状网络和多值条件随机场的3D点云的联合语义实例分割

JSIS3D：具有多任务点状网络和多值条件随机场的3D点云的联合语义实例分割

时间：2021-04-30 08:57:43

论文题目：JSIS3D: Joint Semantic-Instance Segmentation of 3D Point Clouds with Multi-Task Pointwise Networks and Multi-Value Conditional Random Fields

论文链接：/content_CVPR_/papers/Pham_JSIS3D_Joint_Semantic-Instance_Segmentation_of_3D_Point_Clouds_With_Multi-Task_CVPR__paper.pdf

Abstract

深度学习技术已成为大多数与2D图像相关的视觉任务的模型。然而，它们的威力在3D空间中的几个任务上还没有完全发挥出来，例如3D场景理解。在这项工作中，我们共同解决了3D点云的语义和实例分割问题。具体来说，我们开发了一个多任务逐点网络，它同时执行两个任务：预测3D点的语义类并将点嵌入到高维向量中，以便同一目标实例的点由相似的嵌入表示。然后，我们提出了一个多值条件随机场模型，将语义和实例标签结合起来，并将语义和实例分割问题表述为场模型中的联合优化标签。所提出的方法在包括S3DIS和SceneNN在内的不同室内场景数据集上与现有方法进行了彻底的评估和比较。实验结果表明所提出的联合语义实例分割方案在其单个组件上的鲁棒性。我们的方法在语义分割方面也取得了最先进的性能。

1. Introduction

低成本3D传感器（例如Kinect）和光场相机的日益普及开启了许多基于3D的应用，例如自动驾驶、机器人技术、基于移动的导航、虚拟现实和3D游戏。这一发展还获得了自动理解3D数据的能力。在二维领域，常见的场景理解任务，包括图像分类、语义分割或实例分割，都取得了显着的成果[13, 3]。然而，3D场景理解的问题带来了更大的挑战，例如大规模和嘈杂的数据处理。

文献表明，3D场景的数据可以由一组在不同视点[14、46、42]、规则的体积网格 [47、26、28]或简单的3D点云[33、16、45、17、24]。我们的工作受到基于点的表示的启发，原因有几个。首先，与多视图和体积表示相比，点云提供了更紧凑和直观的3D数据表示。其次，最近直接建立在点云上的神经网络[33, 16, 24, 45, 17, 18, 22, 23, 48]在目标识别和语义分割等多个任务中显示出有希望的结果。

在本文中，我们解决了3D场景理解中的两个基本问题：语义分割和实例分割。语义分割旨在为场景中的每个3D点识别类别标签或目标类别（例如椅子、桌子），而实例分割将场景聚类为目标实例。这两个问题通常被分开解决，其中实例分割/检测是语义分割的后处理任务[31, 30]。然而，我们观察到目标类别和目标实例是相互依赖的。例如，在实例上提取的形状和外观特征将有助于识别该实例的目标类别。另一方面，如果将两个3D点分配给不同的目标类别，则它们不太可能属于同一个目标实例。因此，希望将语义和实例分割耦合到单个任务中。针对上述动机，我们在工作中做出以下贡献。

一种网络架构，即多任务逐点网络(MT-PNet)，它同时执行两项任务：预测点云中3D点的目标类别，并将这些3D点嵌入到高维特征向量中，从而将点聚类到目标实例中。

一种多值条件随机场(MV-CRF)模型，将类标签和目标实例的联合优化制定为一个统一的框架，可以使用变分平均场技术有效解决。据我们所知，我们是第一个在统一框架中探索语义和实例联合优化的人。

在不同的基准数据集上进行了广泛的实验，以验证所提出的方法及其主要组件。实验结果表明，联合语义和实例分割优于每个单独的任务，并且所提出的方法在语义分割方面取得了最先进的性能。

本文的其余部分组织如下。第2节简要回顾了相关工作。提议的方法在第3节中描述。实验和结果在第4节中介绍和讨论。论文最后在第五部分进行了总结。

图1. 我们提出的方法的流程。给定输入的3D点云，我们通过重叠窗口扫描点云。然后从窗口中提取3D顶点并通过我们的多任务神经网络以获得语义标签和实例嵌入。然后我们优化多值条件随机场模型以产生最终结果。场景数据是从[15]中检索的。

2. Related Work

本节回顾了3D空间中最近的语义和实例分割技术。我们特别关注应用于3D点云的基于深度学习的技术，因为它们已被证明具有鲁棒性，并且是该领域的当代开创性技术。为了简洁起见，我们稍后将传统的、基于类别的语义分割称为语义分割，将基于实例的语义分割称为实例分割。

2.1. Semantic Segmentation

最近室内场景数据集的可用性[37，15，5，1]激发了对3D场景理解的研究兴趣，特别是语义分割。我们根据输入数据的类型将这些近期作品分为三个主要类别，即多视图图像、体积表示和点云。

Multi-view approach.这种方法通常使用2D域上的预训练模型，并将它们应用于3D空间。通过将来自彩色或RGB-D图像的2D预测反投影和融合到3D空间上，获得每顶点标签。对2D的预测可以通过分类器来完成，例如随机森林[14，36，46，42]或深度神经网络[27，49，30]。这种技术可以与3D场景重建协同实施，从而创建实时语义重建系统。然而，这种方法存在2D预测之间的不一致性，并且其性能可能取决于视图位置。

Volumetric approach.深度神经网络在解决图像上的若干场景理解任务中的鲁棒性启发了直接在3D空间中应用深度神经网络来解决3D场景理解问题。事实上，规则网格上的卷积，例如图像结构，可以很容易地扩展到3D，这导致了使用体积表示的深度学习[47，26，28]。为了支持高分辨率分割和减少内存占用，提出了一种分层数据结构，如八叉树，以限制卷积运算只对自由空间体素[35]。已经表明，语义分割的性能可以通过与场景完成联合解决问题来提高[39，6]。

Point cloud approach.与体积相反，点云是一种紧凑而直观的表示，它通过顶点的坐标和法线直接存储3D场景的几何属性。点云自然来自多视图立体声、深度和激光雷达传感器等商用设备。点云也可以转换为其他表示，如体积[40]或网格[41]。虽然卷积可以方便地在体积[40]上进行，但它们不能直接应用于点云。这个问题首先在Qi等人的工作[32]中提出，随后由其他几个人进行了探讨，例如[33，16，45，17，24，23，48]。语义分割可以进一步扩展到图形卷积（graph convolution），以处理大规模的点云[22]，并使用kd-tree来处理不均匀的点分布[18，12]。

图 2. 我们提出的MT-PNet 架构，它基于PointNet[32]。点云首先通过前馈神经网络计算每个点的128维特征向量。在这里，它分为多个分支：一个用于实例嵌入，另一个用于语义分割。

Conditional Random Fields (CRFs)CRF通常用于3D场景的语义分割，例如[41，14，20，46，42，27，34]。一般来说，CRF利用一元和二元势来捕捉单个3D点[46]或网格[41]的特征，以及它们的共现。为了利用先验知识增强CRF，引入了高阶势[21，11，50，2，49，10，30]。高阶电位，例如，目标检测[21，2，30]，作为附加线索来帮助推断CRF中的语义类别标签。

2.2. Instance Segmentation

一般来说，有两种常见的策略来处理实例分割。第一个策略是使用目标检测技术定位目标边界框，然后在每个框内找到一个分隔前景和背景的掩码。这种方法已被证明可以很好地处理图像 [7, 13]，同时在3D域中被认为具有挑战性。这可能是由于现有的3D目标检测器通常不是从头开始训练而是利用图像特征[9,31,25]。使用掩码扩展此类方法是可能的，但可能会导致次优且更复杂的管道。

相反，鉴于3D数据[32,1,16]语义分割的有希望的结果，第二种策略是通过添加一个提出目标实例的过程来扩展语义分割框架。在早期的尝试中，Wang等人[44]在 [32]中提出基于PointNet学习语义图和点特征的相似矩阵。然后作者提出了一种启发式和非最大抑制步骤，将相似点合并到实例中。

3. Proposed Method

在这一节中，我们描述了我们提出的三维点云的语义和实例分割方法。给定一个3D点云，我们首先通过重叠3D窗口扫描整个点云。每个窗口(及其关联的3D顶点)被传递到神经网络，用于预测窗口内顶点的语义类别标签，并将顶点嵌入到高维向量中。为了实现这些任务，我们开发了一个多任务逐点网络(MT-PNet),旨在预测场景中每个3D点的目标类别，同时将3D点及其类别标签信息嵌入到矢量中。该网络鼓励属于同一目标实例的3D点被彼此拉近，同时将不同目标实例的3D点彼此推得尽可能远。然后将这些类别标签和嵌入融合成一个多值条件随机场(MVCRF)模型。最后使用变分推理联合执行语义和实例分割。我们在图1中说明了我们方法的管道，并在下面的小节中描述了它的主要组件。

3.1. Multi-Task Pointwise Network (MT-PNet)

我们的 MT-PNet 基于 Qi 等人在 [32] 中提出的 PointNet 的前馈架构（见图 2）。具体来说，对于大小为 N 的输入点云，大小为N×DN \times DN×D的特征图，其中DDD每个点的特征维度，首先计算。然后，MT-PNet分成两个不同的分支，执行两个任务：预测3D点的语义标签并创建它们的逐点实例嵌入。我们的MTPNet的损失是它的两个分支的损失之和，

L=Lprediction+Lembedding(1)\mathcal{L}=\mathcal{L}_{\text {prediction }}+\mathcal{L}_{\text {embedding }} \tag{1} L=Lprediction+Lembedding(1)

预测损失Lprediction\mathcal{L}_{\text {prediction }}Lprediction 像往常一样由交叉熵定义。受 [8] 中工作的启发，我们采用判别函数来呈现嵌入损失Lembedding\mathcal{L}_{e m b e d d i n g}Lembedding。特别地，假设有KKK个实例，Nk,k∈{1,…,K}N_k, k \in\{1, \ldots, K\}Nk,k∈{1,…,K}是第kkk个实例中的元素个数，ej∈Rd\mathbf{e}_j \in \mathbb{R}^dej∈Rd是点vjv_jvj的嵌入，μk\boldsymbol{\mu}_kμk是均值在第kkk个实例中的嵌入。嵌入损失可以定义如下，

Lembedding=α⋅Lpull+β⋅Lpush+γ⋅Lreg(2)\mathcal{L}_{\text {embedding }}=\alpha \cdot \mathcal{L}_{\text {pull }}+\beta \cdot \mathcal{L}_{\text {push }}+\gamma \cdot \mathcal{L}_{\text {reg }} \tag{2} Lembedding=α⋅Lpull+β⋅Lpush+γ⋅Lreg(2)

where

Lpull=1K∑k=1K1Nk∑j=1Nk[∥μk−ej∥2−δv]+2(3)\mathcal{L}_{\text {pull }}=\frac{1}{K} \sum_{k=1}^K \frac{1}{N_k} \sum_{j=1}^{N_k}\left[\left\|\boldsymbol{\mu}_k-\mathbf{e}_j\right\|_2-\delta_v\right]_{+}^2 \tag{3} Lpull=K1k=1∑KNk1j=1∑Nk[∥μk−ej∥2−δv]+2(3)

Lpush=1K(K−1)∑k=1K∑m=1,m≠kK[2δd−∥μk−μm∥2]+2(4)\mathcal{L}_{\text {push }}=\frac{1}{K(K-1)} \sum_{k=1}^K \sum_{m=1, m \neq k}^K\left[2 \delta_d-\left\|\boldsymbol{\mu}_k-\boldsymbol{\mu}_m\right\|_2\right]_{+}^2 \tag{4} Lpush=K(K−1)1k=1∑Km=1,m=k∑K[2δd−∥μk−μm∥2]+2(4)

Lreg=1K∑k=1K∥μk∥2(5)\mathcal{L}_{r e g}=\frac{1}{K} \sum_{k=1}^K\left\|\boldsymbol{\mu}_k\right\|_2 \tag{5} Lreg=K1k=1∑K∥μk∥2(5)

其中[x]+=max⁡(0,x),δv[x]_{+}=\max (0, x), \delta_v[x]+=max(0,x),δv 和δd\delta_dδd分别是 pull loss Lpull\mathcal{L}_{\text {pull }}Lpull和 push loss Lpush\mathcal{L}_{\text {push }}Lpush的边际。我们在我们的实现中设置了α=β=1\alpha=\beta=1α=β=1 和γ=0.001\gamma=0.001γ=0.001。

这种嵌入损失的一个简单直觉是，pull loss Lpull\mathcal{L}_{\text {pull }}Lpull将嵌入吸引到质心，即 µk，而 push loss Lpush\mathcal{L}_{\text {push }}Lpush使这些质心远离彼此。正则化损失Lreg\mathcal{L}_{r e g}Lreg充当将所有质心拉向原点的小力量。如 [8] 所示，如果我们设置边距δd>2δv\delta_d>2 \delta_vδd>2δv，那么每个嵌入将比其他质心更接近自己的质心。

3.2. Multi-Value Conditional Random Fields (MVCRF)

设V={v1,…,vN}V=\left\{v_1, \ldots, v_N\right\}V={v1,…,vN}为 3D 重建后得到的 3D 场景的点云。点云中的每个 3D 顶点vjv_jvj由其 3D 位置lj=[xj,yj,zj]l_j= \left[x_j, y_j, z_j\right]lj=[xj,yj,zj]表示，法线nj=[nj,x,nj,y,nj,z]\mathbf{n}_j=\left[n_{j, x}, n_{j, y}, n_{j, z}\right]nj=[nj,x,nj,y,nj,z]和颜色cj=[cj,R,cj,G,cj,B]\mathbf{c}_j= \left[c_{j, R}, c_{j, G}, c_{j, B}\right]cj=[cj,R,cj,G,cj,B]。通过使用提出的MT-PNet，我们还获得了每个点vjv_jvj的嵌入ej∈Rd\mathbf{e}_j \in \mathbb{R}^dej∈Rd。令LS={l1S,…,lNS}L^S=\left\{l_1^S, \ldots, l_N^S\right\}LS={l1S,…,lNS}为需要分配给点云VVV的一组语义标签，其中ljSl_j^SljS表示vjv_jvj的语义类，例如椅子、桌子等。类似地，令LI={l1I,…,lNI}L^I=\left\{l_1^I, \ldots, l_N^I\right\}LI={l1I,…,lNI}为VVV的实例标签集，即同一目标实例的所有顶点将具有相同的实例标签 ljIl_j^IljI。标签ljSl_j^SljS和ljIl_j^IljI是在SSS和III中取值的随机变量，它们分别是语义标签和实例标签的集合。注意SSS是预定义的，而III是未知的，需要通过实例分割来确定。

E(LS,LI∣V)=∑jφ(ljS)+∑(j,k),j<kφ(ljS,lkS)+∑jψ(ljI)+∑(j,k),j<kψ(ljI,lkI)+∑s∈S∑i∈Iϕ(s,i)(6)\begin{aligned} E\left(L^S, L^I \mid V\right)=& \sum_j \varphi\left(l_j^S\right)+\sum_{(j, k), j<k} \varphi\left(l_j^S, l_k^S\right) \\ &+\sum_j \psi\left(l_j^I\right)+\sum_{(j, k), j<k} \psi\left(l_j^I, l_k^I\right) \\ &+\sum_{s \in S} \sum_{i \in I} \phi(s, i) \end{aligned} \tag{6} E(LS,LI∣V)=j∑φ(ljS)+(j,k),j<k∑φ(ljS,lkS)+j∑ψ(ljI)+(j,k),j<k∑ψ(ljI,lkI)+s∈S∑i∈I∑ϕ(s,i)(6)

我们注意到我们的 MV-CRF 与现有的高阶 CRF 有很大不同，例如 [21,11,2,30]。具体来说，在现有的高阶 CRF 中，高阶，例如目标检测被用作有助于改进分割的先验知识。相比之下，我们的 MV-CRF 将实例标签和语义标签视为未知，并同时优化它们。

(6) 中的能量函数E(LS,LI∣V)E\left(L^S, L^I \mid V\right)E(LS,LI∣V)涉及许多势能，这些势能在两者中都包含物理约束（例如，表面光滑度、几何接近度）和语义约束（例如，目标类和实例之间的形状一致性）。语义和实例标记。具体来说，一元势 φ(ljS)\varphi\left(l_j^S\right)φ(ljS)是在语义标签ljSl_j^SljS上定义的，并直接从MT-PNet的分类分数计算为，

φ(ljS=s)∝−log⁡p(vj∣ljS=s)(7)\varphi\left(l_j^S=s\right) \propto-\log p\left(v_j \mid l_j^S=s\right) \quad\quad\quad\quad(7) φ(ljS=s)∝−logp(vj∣ljS=s)(7)

其中sss是SSS中可能的类标签，p(vj∣ljS=s)p\left(v_j \mid l_j^S=s\right)p(vj∣ljS=s)是我们的网络将vjv_jvj分类到语义类sss的概率（例如，softmax 值）。

我们发现同一目标类的顶点通常共享相同的分类分数分布，即p(vj∣ljS)p\left(v_j \mid l_j^S\right)p(vj∣ljS)。因此，我们通过vjv_jvj和vkv_kvk的分类分数对成对势 φ(ljS,lkS)\varphi\left(l_j^S, l_k^S\right)φ(ljS,lkS)进行建模。具体来说，我们定义，

φ(ljS,lkS)=ωj,kexp⁡{−[p(vj∣ljS)−p(vk∣lkS)]22θ2}(8)\varphi\left(l_j^S, l_k^S\right)=\omega_{j, k} \exp \left\{-\frac{\left[p\left(v_j \mid l_j^S\right)-p\left(v_k \mid l_k^S\right)\right]^2}{2 \theta^2}\right\} \tag{8} φ(ljS,lkS)=ωj,kexp{−2θ2[p(vj∣ljS)−p(vk∣lkS)]2}(8)

其中ωj,k\omega_{j, k}ωj,k是从Pott相容性获得的，

ωj,k={−1,ifljS/I=lkS/I1,otherwise(9)\omega_{j, k}= \begin{cases}-1, & \text { if } l_j^{S / I}=l_k^{S / I} \\ 1, & \text { otherwise }\end{cases} \tag{9} ωj,k={−1,1,ifljS/I=lkS/Iotherwise(9)

一元势ψ(ljI)\psi\left(l_j^I\right)ψ(ljI)强制属于同一实例的嵌入以尽可能接近它们的平均嵌入。直观地说，同一实例的嵌入有望在嵌入空间中转换为它们的模式。同时，鼓励不同实例的嵌入相互分歧。具体来说，假设实例标签集I={i1,…,iK}I=\left\{i_1, \ldots, i_K\right\}I={i1,…,iK}包括KKK 个实例。假设LIL^ILI的当前配置将VVV中的所有顶点分配给这KKK个实例。对于每个实例标签i∈Ii \in Ii∈I，我们定义，

ψ(ljI=i)=−exp⁡[−12(ej−μi)⊤Σi−1(ej−μi)](2π)d∣Σi∣−log⁡[∑k1(lkI=i)](10)\begin{aligned} \psi\left(l_j^I=i\right) &=-\frac{\exp \left[-\frac{1}{2}\left(\mathbf{e}_j-\boldsymbol{\mu}_i\right)^{\top} \boldsymbol{\Sigma}_i^{-1}\left(\mathbf{e}_j-\boldsymbol{\mu}_i\right)\right]}{\sqrt{(2 \pi)^d\left|\boldsymbol{\Sigma}_i\right|}} \\ &-\log \left[\sum_k 1\left(l_k^I=i\right)\right] \tag{10} \end{aligned} ψ(ljI=i)=−(2π)d∣Σi∣exp[−21(ej−μi)⊤Σi−1(ej−μi)]−log[k∑1(lkI=i)](10)

其中μi\boldsymbol{\mu}_iμi和Σi\boldsymbol{\Sigma}_iΣi分别表示分配给标签iii的嵌入的均值和协方差矩阵，1(⋅)1(\cdot)1(⋅)是一个指标。

(10) 中的术语∑k1(lkI=i)\sum_k 1\left(l_k^I=i\right)∑k1(lkI=i)表示实例 i 的区域，用于支持大实例。我们发现这个术语可以帮助消除点云中由噪声引起的微小实例。

实例标签的成对势ψ(ljI,lkI)\psi\left(l_j^I, l_k^I\right)ψ(ljI,lkI)捕获目标实例中的表面的几何属性，并且被定义为顶点vjv_jvj和vkv_kvk的位置、法线和颜色的高斯混合。特别是，

ψ(ljI,lkI)=ωj,kexp⁡(−∥lj−lk∥222λ12−∥nj−nk∥222λ22−∥cj−ck∥222λ32)(11)\begin{aligned} &\psi\left(l_j^I, l_k^I\right)= \\ &\omega_{j, k} \exp \left(-\frac{\left\|\mathbf{l}_j-\mathbf{l}_k\right\|_2^2}{2 \lambda_1^2}-\frac{\left\|\mathbf{n}_j-\mathbf{n}_k\right\|_2^2}{2 \lambda_2^2}-\frac{\left\|\mathbf{c}_j-\mathbf{c}_k\right\|_2^2}{2 \lambda_3^2}\right) \end{aligned} \tag{11} ψ(ljI,lkI)=ωj,kexp(−2λ12∥lj−lk∥22−2λ22∥nj−nk∥22−2λ32∥cj−ck∥22)(11)

其中ωj,k\omega_{j, k}ωj,k在(9)中给出。

(6) 中的术语 ϕ(s,i)\phi(s, i)ϕ(s,i)将基于语义的电位与基于实例的电位相关联，并鼓励语义标签和实例标签之间的一致性。例如，如果将两个顶点分配给同一个目标实例，则它们应该分配给同一个目标类。从技术上讲，如果我们为目标实例iii 的所有顶点计算语义标签sss频率的直方图hih_ihi，我们可以定义ϕ(s,i)\phi(s, i)ϕ(s,i)基于sss和iii之间的互信息，

ϕ(s,i)=−hi(s)log⁡hi(s)(12)\phi(s, i)=-h_i(s) \log h_i(s) \tag{12} ϕ(s,i)=−hi(s)loghi(s)(12)

其中hi(s)h_i(s)hi(s)是语义标签sss在实例标签为iii的顶点中出现的频率。

如(12)所示，给定实例标签iii，所有语义标签s∈Ss \in Ss∈S上的ϕ(s,i)\phi(s, i)ϕ(s,i)之和是标签sss相对于的信息熵。目标实例iii，即∑s∈Sϕ(s,i)=−∑s∈Shi(s)log⁡hi(s)\sum_{s \in S} \phi(s, i)=-\sum_{s \in S} h_i(s) \log h_i(s)∑s∈Sϕ(s,i)=−∑s∈Shi(s)loghi(s)。因此，一个好的标注应该最小化这样的熵，导致相同目标实例中语义标签的低变化。由于(6)中的能量E(LS,LI∣V)E\left(L^S, L^I \mid V\right)E(LS,LI∣V)对所有语义标签sss和实例标签iii求和，这将有利于高度一致的标签。

3.3. Variational Inference

(6)中E(LS,LI∣V)E\left(L^S, L^I \mid V\right)E(LS,LI∣V)的最小化等价于后验条件p(LS,LI∣V)p\left(L^S, L^I \mid V\right)p(LS,LI∣V)的最大化，这很难使用简单实现来解决。在本文中，我们采用平均场变分法来解决这个优化问题[43]。一般来说，平均场变分推断的思想是用一个变分分布Q(LS,LI)Q\left(L^S, L^I\right)Q(LS,LI)来近似概率分布p(LS,LI∣V)p\left(L^S, L^I \mid V\right)p(LS,LI∣V)，这个变分分布Q(LS,LI)Q\left(L^S, L^I\right)Q(LS,LI)可以在(LS,LI)\left(L^S, L^I\right)(LS,LI)中的所有随机变量上完全分解，即Q(LS,LI)=∏jQj(ljS,ljI)Q\left(L^S, L^I\right)=\prod_j Q_j\left(l_j^S, l_j^I\right)Q(LS,LI)=∏jQj(ljS,ljI)。

然而，Q(LS,LI)Q\left(L^S, L^I\right)Q(LS,LI)在(LS,LI)\left(L^S, L^I\right)(LS,LI)中所有对上的因式分解导致每个顶点的计算复杂度为∣S∣×∣I∣|S| \times|I|∣S∣×∣I∣。此外，由于我们提出的MV-CRF模型是完全连接的，在平均场近似的传统实现中使用的消息传递步骤需要随机变量数量的二次复杂度(即2N2N2N)。幸运的是，由于我们在(8)和(11)中定义的成对势以高斯形式表示，因此可以通过对QQQ的下采样版本应用高斯滤波器的卷积运算，然后进行上采样来有效地执行消息传递步骤[19]。截断高斯也可以用来近似这些高斯滤波器，以进一步加快消息传递过程[29]。

我们首先假设LSL^SLS和LIL^ILI在联合变分分布Q(LS,LI)Q\left(L^S, L^I\right)Q(LS,LI)中是独立的，因此Q(LS,LI)Q\left(L^S, L^I\right)Q(LS,LI)可以分解为，

Q(LS,LI)=[∏j=1NQjS(ljS)][∏j=1NQjI(ljI)](13)Q\left(L^S, L^I\right)=\left[\prod_{j=1}^N Q_j^S\left(l_j^S\right)\right]\left[\prod_{j=1}^N Q_j^I\left(l_j^I\right)\right] \tag{13} Q(LS,LI)=[j=1∏NQjS(ljS)][j=1∏NQjI(ljI)](13)

(13)中的假设允许我们导出语义和实例变分分布QSQ^SQS 和QLQ^LQL的平均场更新方程。

由于(6)中的项∑s∈S∑i∈Iϕ(s,i)\sum_{s \in S} \sum_{i \in I} \phi(s, i)∑s∈S∑i∈Iϕ(s,i)没有相对于索引jjj表示，为了方便计算平均场更新，对于每个顶点vjv_{j}vj，我们定义一个新的项mjm_jmj为，

mj=∑s∈ShljI(s)log⁡hljI(s)∑vk∈V1(lkI=ljI)(14)m_j=\frac{\sum_{s \in S} h_{l_j^I}(s) \log h_{l_j^I}(s)}{\sum_{v_k \in V} 1\left(l_k^I=l_j^I\right)} \tag{14} mj=∑vk∈V1(lkI=ljI)∑s∈ShljI(s)loghljI(s)(14)

通过使用mjm_{j}mj，(6) 中的项∑s∈S∑i∈Iϕ(s,i)\sum_{s \in S} \sum_{i \in I} \phi(s, i)∑s∈S∑i∈Iϕ(s,i)可以重写为：

∑s∈S∑i∈Iϕ(s,i)=∑vj∈Vmj(15)\sum_{s \in S} \sum_{i \in I} \phi(s, i)=\sum_{v_j \in V} m_j \tag{15} s∈S∑i∈I∑ϕ(s,i)=vj∈V∑mj(15)

然后我们获得平均场更新，

QjS(ljS=s)←1Zjexp⁡[−φ(ljS=s)−∑s′∈S∑k≠jQkS(lkS=s′)φ(ljS,lkS)−mj](16)\begin{aligned} Q_j^S\left(l_j^S=s\right) \leftarrow & \frac{1}{Z_j} \exp \left[-\varphi\left(l_j^S=s\right)\right.\\ &\left.-\sum_{s^{\prime} \in S} \sum_{k \neq j} Q_k^S\left(l_k^S=s^{\prime}\right) \varphi\left(l_j^S, l_k^S\right)-m_j\right] \end{aligned} \tag{16} QjS(ljS=s)←Zj1exp[−φ(ljS=s)−s′∈S∑k=j∑QkS(lkS=s′)φ(ljS,lkS)−mj⎦⎤(16)

and

QjI(ljI=i)←1Zjexp⁡[−ψ(ljI=i)−∑i′∈I∑k≠jQkI(lkI=i′)ψ(ljI,lkI)−mj](17)\begin{aligned} Q_j^I\left(l_j^I=i\right) \leftarrow & \frac{1}{Z_j} \exp \left[-\psi\left(l_j^I=i\right)\right.\\ &\left.-\sum_{i^{\prime} \in I} \sum_{k \neq j} Q_k^I\left(l_k^I=i^{\prime}\right) \psi\left(l_j^I, l_k^I\right)-m_j\right] \end{aligned} \tag{17} QjI(ljI=i)←Zj1exp[−ψ(ljI=i)−i′∈I∑k=j∑QkI(lkI=i′)ψ(ljI,lkI)−mj⎦⎤(17)

其中ZjZ_jZj是使Q(LS,LI)Q\left(L^S, L^I\right)Q(LS,LI)在优化期间成为概率质量函数的配分函数。

5. Conclusion

点云的语义分割和实例分割是三维场景理解中至关重要的基本步骤。本文提出了一种语义实例切分方法，通过一种新的多任务点式网络和多值条件随机场模型联合执行这两项任务。多任务逐点网络同时学习3D点的类标签和它们的嵌入表示，这使得能够将3D点聚类成目标实例。多值条件随机场模型集成了3D和高维嵌入特征，以联合执行语义和实例分割。我们对提出的方法进行了评估，并在不同的室内数据集上将它与现有方法进行了比较。实验结果有利地显示了我们的方法与最先进的方法相比的进步，并且联合语义实例分割方法优于其单独的组件。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。