目前大模型对于文字和图像的理解能力已日趋成熟,比如用于处理自然语言的BERT、T5和GPT,以及用于理解图像的DINOV2、MAE、ViT-22B等。只不过这些模型对于图像的理解还大多只是局限于2D图像,能够准确理解3D图像的模型还有待开发。这主要是因为缺乏大量的3D数据来训练这样的大模型。要想获取高质量的3D数据并进行标注,需要花费很多人力、物力,而合成的3D数据又不够真实,很难用于实际的应用。
因为3D视觉的理解能力对于机器人和自动驾驶等应用都至关重要,于是有研究人员想到,可以把本来用于处理2D视觉的预训练模型迁移到3D模态。这样的迁移主要有两种方式,一种通过数据模态的转换,把3D点云转换成2D图像,然后再利用2D模型来处理这些图像。虽然这种方法在一些任务上表现还不错,但是在转换的过程中会丢失很多3D数据的空间信息,这就限制了它对3D数据的理解能力。
第二种方法,是尝试从2D视觉模型或者视觉-语言模型中提取知识,然后应用到新训练的3D模型中。不过,这种方法在训练时既要考虑2D模型又要考虑3D模型,而且还需要大量的2D和3D的匹配数据,这就让整个过程变得很复杂,计算成本也很高,不容易实现。
为了找到一个通用的向3D视觉迁移的方法,让不论哪种模态的大模型都能高效地理解点云数据,中国电信李学龙联合西北工业大学、北京大学、上海人工智能实验室的团队提出了Any2Point,这是一个从任意模态迁移到3D的统一框架,能够通过参数高效微调(PEFT)将任意1D(语言)或2D(图像/音频)大型模型迁移至3D领域。与先前方法不同,Any2Point避免了点云投影,从而减少了3D信息的损失,并直接对源模态的预训练模型进行微调,通过知识蒸馏节省了资源。
该项研究目前以“Any2Point:EmpoweringAny-modalityLargeModelsforEfficient3DUnderstanding”为题发布在arXiv平台上:
Any2Point通用框架
对于任意模态的预训练Transformer模型,Any2Point首先引入了一个从3D到任意模态(1D或2D)的虚拟投影机制,该机制在输入3D点与它们虚拟投影的1D线或2D平面之间建立位置映射。这样就能够使用预训练大型模型源模态的原始位置嵌入来编码3D坐标。这种方式不需要真正进行投影,也就避免了3D几何信息的丢失,同时还能更好地促进预训练Transformer利用其原始的1D/2D位置先验来获取3D特征。然后,每个Transformer块中还插入一个任意模态到3D的引导适配器模块用于PEFT。该适配器利用1D/2D空间引导来聚合3D标记的局部语义,促进细粒度的特征交互。最后,再根据不同的1D/2D先验对3D特征进行自适应集成,获得高质量的3D表示。
为了对输入的点云进行编码,这里舍弃了源Transformer中的原始嵌入模块,例如1D语言模型中的分词器和2D视觉/音频模型中的卷积层,转而采用一个3D微型网络进行点云分词。在此基础上,首先将编码后的3D标记送入一个3D到任意的虚拟投影模块进行位置编码,然后将其送入带有Any-to-3D(从任意模态到3D)引导适配器的冻结1D/2DTransformer中。前者旨在为每个3D标记分配源模态内的位置信息,而后者则是为了进行自适应的1D/2D引导的3D表示学习。
从3D到任何模态(3D-to-any)的虚拟投影
目前2D-to-3D方法通过将3D点云投影为2D图像来利用预训练的2D模型,但这种降维过程会导致3D几何信息的丢失。Any2Point则避免了这一问题,通过直接在3D点云上进行分词,然后将3D标记坐标虚拟投影到1D或2D空间,以获取与预训练的1D(如语言)或2D(如视觉、音频)Transformer模型相匹配的位置编码。
具体来说,该方法使用3D微型网络将原始点云分词为高维的3D标记,并保留其3D坐标。对于2DTransformer模型,将每个3D坐标虚拟投影到多个2D视图中,从预训练模型中获取2D位置编码。对于1DTransformer,则将3D坐标虚拟投影到穿过点云中心的1D直线上,得到1D位置编码。
来自多个虚拟投影的位置编码将被平均,并融入3D标记中。这样可以在避免真实降维投影导致的信息损失的同时,将丰富的位置信息注入到3D数据中。该方法能够以更几何保持的方式在3D数据上利用预训练的1D/2DTransformer模型。
Any-to-3D引导适配器
为了更有效地在3D数据上利用预训练的1D(如语言)或2D(如视觉、音频)Transformer模型,研究团队在每个Transformer块内部嵌入可学习的Any-to-3D引导适配器,这些适配器能够高效地融入预训练模型的1D/2D先验知识,进而提升3D特征学习的效果。
为此,他们设计了包含两个主要组件的适配器:首先是1D/2D引导局部聚合组件。它根据1D/2D位置编码,将3D标记按照从不同视图或线条得到的虚拟投影进行局部邻域分组。然后,在每个局部邻域内应用自注意力机制,实现特征之间的交互与融合。
其次是自适应任意到3D集成组件。在通过多个视图或线条进行并行局部聚合后,再利用一个3D特征变换分支来自适应地集成这些特征,并根据它们的相对重要性进行动态加权。
通过这种方式,适配器能够有效地捕捉3D数据的细粒度几何特征,同时充分利用预训练Transformer模型中的1D/2D先验知识。这种参数高效的适配器设计使得我们能够在不改变预训练1D/2DTransformer权重的情况下,实现高效的3D特征学习。
实验设置
接下来,研究团队在ScanObjectNN和ModelNet40数据集上进行的广泛实验,以评估Any2Point框架在将预训练的语言、2D视觉和音频Transformer模型转移到3D点云分类任务上的性能。
对于ScanObjectNN数据集,这里使用了具有挑战性的PB-T50-RS划分,并在未使用投票机制的情况下进行了实验。实验中采用了AdamW优化器和余弦退火调度器,进行了300个epoch的微调,并使用了数据增强技术。预训练模型包括CLIP文本编码器(用于语言)、DINOV2(用于2D视觉)和ImageBind音频编码器。对于ModelNet40数据集,则采用了与ScanObjectNN相同的微调设置和预训练模型,并在测试过程中使用了默认的数据增强技术,但同样没有使用投票机制。
定量分析
定量分析表明,在真实世界的ScanObjectNN3D物体数据集上:
Any2Point框架在分别转移预训练的语言(CLIP-Text)、2D视觉(DINOV2-B)和音频(ImageBind-Audio)模型时,实现了91.9%、87.7%和87.0%的高准确率。
在语言模态方面,该框架以更少的可学习参数(0.9M)超越了先前的SOTA方法ReCon,提升了1.3%的准确率。
在2D视觉/音频模态方面,Any2Point框架显著超越了仅使用3D预训练的SOTA方法Point-M2AE,分别提升了0.6%和1.3%的准确率。
这充分展示了该框架有效利用其他模态的预训练知识来提升3D任务表现的能力。
而在合成的ModelNet40数据集上:
Any2Point框架在语言、2D视觉和音频模态上分别取得了94.3%、93.2%和92.7%的高准确率。
仅使用语言模型,Any2Point就在使用42.7M更少参数的情况下,比先前的SOTA方法提升了0.2%的准确率。
在2D模态方面,Any2Point的表现与仅使用3D数据预训练的模型相当。
值得注意的是,在两个数据集上,语言模态的表现均优于2D视觉/音频,这表明大型语言模型提供的丰富空间/语义信息对低维3D学习非常有益。
这些结果证明了Any2Point框架在将不同预训练模态,特别是语言模态,转移到真实和合成数据的挑战性3D识别任务上的强大性能。
消融实验
随后的消融实验对比了传统提示/适配器调整方法与Any-to-3D引导适配器在将1D/2D预训练模型迁移到3D时的表现。结果显示,Any-to-3D引导适配器显著优于传统方法,分别提高了2.8%/1.3%(相对于提示调整)、2.3%/1.8%(相对于适配器调整)和5.6%/2.6%(相对于LoRA)。这证明了引导适配器在整合多模态预训练知识以促进3D理解方面的有效性。
此外,实验还验证了Any2Point框架中关键组件的有效性,包括3D-to-any虚拟投影和Any-to-3D引导适配器。添加虚拟投影分别提升了2.0%(1D)和1.4%(2D)的基线性能,而添加引导适配器则进一步提升了1.6%(1D)和1.0%(2D)。两者结合使用达到了91.9%(1D)和87.7%(2D)的高准确率,显示出它们的互补效果。
在虚拟投影与其他位置编码的对比中,正弦或可学习的位置编码因冲突而降低了性能,而3D-to-any虚拟投影通过与预训练先验的对齐提高了1.0%(1D)和0.1%(2D)的性能。
而对引导适配器组件的消融实验表明,1D/2D局部聚合分别提高了0.9%(1D)和0.2%(2D),自适应集成则进一步提升了1.7%(1D)和0.9%(2D),验证了它们在捕获局部3D几何信息和整合中的作用。
在不同模态的性能趋势上,额外实验证实1D语言模型始终优于2D视觉/音频模型,其中1D达到89.7%,而2D视觉为87.3%,2D音频为87.1%。这表明语言模型中更丰富的语义知识对3D理解有益。
可视化实验
在可视化实验中,作者对比了不同位置编码方法的可视化效果:正弦和可学习位置编码在转移到3D时未能捕捉关键的3D语义信息。对于1D语言模型,它们聚焦于无关或分散的模式,而非物体上显著的部分。对于2D视觉模型,可学习编码略优于正弦编码,但仍缺乏重点。而提出的3D-to-any虚拟投影通过利用预训练的位置先验,成功突出了重要区域,如扶手、轮子(椅子)、腿(桌子)和椅背。
在分析Any-to-3D引导适配器组件的影响时,他们通过聚类标记与点特征之间的相似性进行可视化。对于简单物体如椅子,完整的适配器能够区分椅背、扶手、座位和轮子。移除组件如自适应集成或仅使用3D位置会导致关键部件之间的混淆。对于复杂物体如架子,移除任何组件都会导致底部、中部和椅背的语义混合。完整的适配器通过整合预训练模态的位置指导,清晰地分离了不同区域。
附加消融实验和可视化实验
随后,附加消融实验系统地探索了如何最优地将预训练的多模态知识迁移到3D领域。研究发现,将Any-to-3D引导适配器放置在前馈网络之后,且深度为12层时,性能表现最佳。这种配置充分利用了低层和高层预训练特征,并通过全局交互后的局部聚合提升了效果。此外,对于3D-to-any虚拟投影,使用6个虚拟投影视图能够充分捕获3D的复杂性,尤其是在1D/2D模态中表现优异。在局部聚合方面,适当的1D线段和2D补丁大小对于保留关键的局部3D特征至关重要。特别值得一提的是,利用源模态的原始位置先验信息,相较于仅依赖3D位置,能够显著提高性能,这证明了局部聚合在解决3D数据与预训练空间位置差异方面的有效性。总体而言,该研究为有效将预训练知识转移到3D领域提供了重要的实践指导。
为了探究利用1D/2D位置嵌入(PEs)编码3D位置的方法效果,作者在ModelNet40数据集的测试集上进行了可视化实验,采用了CLIP-Text(1D)和DINOV2(2D)作为可视化工具。他们随机选取了3D对象上的一个点,并计算了该点位置嵌入与其他标记位置嵌入之间的余弦相似度。实验对比了不同视角下的3DPEs以及通过多个视角平均得到的最终3DPEs。结果表明,在接近所选点的区域,该方法显示出了更高的相似度,而在其他视角下,高相似度区域则较为分散。具体来说,当选择飞机鼻子或台灯底座上的点时,该方法能够展示出相似度值随距离逐渐减小的趋势,而其他视角下的分布则显得不够规律。这充分证明了3D位置嵌入方法能够在3D空间中隐式地建立准确的空间关系。
总体而言,Any2Point旨在构建一个通用的任何模态到3D的转换框架,使任何模态的预训练大型模型(例如2D视觉、语言和音频)都能高效地用于3D理解。Any2Point框架引入了两项技术,即3D-to-any虚拟投影和any-to-3D引导适配器,以在高效微调预训练模型的同时提取3D结构知识。这样就能够克服现有方法中的问题,如3D几何损失和过高的资源成本。在各种任务上的广泛实验表明,与之前的SOTA3D预训练模型相比,Any2Point具有卓越的性能和效率,仅使用一小部分可训练参数就能取得显著成果。
本文内容不代表平台立场,不构成任何投资意见和建议,以个人官网/官方/公司公告为准。
免责声明:本文章如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系