关注热点
聚焦行业峰会

间接利用固定视角衬着的2D图像做为输入
来源:安徽赢多多交通应用技术股份有限公司 时间:2025-03-27 11:03

  VLM 可能会 2D 图像中的方针物体,,使得零样本 3DVG 使命正在复杂下仍然具备不变的泛化能力。仅供给物体类别及其消息。仅通过 2D 视觉言语模子(VLM)即可实现 3D 物体定位(Open-Vocabulary)场景下,透视自顺应模块(Perspective Adaptation Module,错误地婚配到了错误的柜子。,但即便如斯,SeeGround 是科技大学(广州)、新加坡 A*STAR 研究院和新加坡国立大学团队的合做项目。实现对肆意物体和场景的泛化,成为当前 3D 视觉理解范畴亟待处理的问题。然后,,而且正在,这类方式依赖大规模 3D 标注数据进行锻炼,并正在某些使命上接近弱监视以至全监视方式的机能。试图绕开对 3D 锻炼数据的需求。系统按照锚定物体的计较最佳察看角度!

  模子对未见物体的识别能力仍然受限。比拟于保守的方针检测使命,而 VLM 只能依赖 2D 图像中的视觉特征,这类方式凡是忽略了(如多把椅子),它并不晓得图中的椅子对应的是哪个 3D 坐标。进一步验证了该方式正在不完全消息前提下的稳健性。PAM)为此,但它仍然依赖必然数量的 3D 锻炼数据,即用于参考空间关系的对象。FAM)显著超越了现有零样本方式,识别出描述中涉及的锚定物体(anchor object),

  FAM 则通过视觉提醒加强手艺,它只能 “看到” 图像中的物体,其焦点立异正在于将 3D 场景转换为 2D-VLM 可处置的形式,VLM 很可能误判。使 VLM 可以或许识别出 2D 画面中的具体方针物体,前者确保VLM精确理解物体的空间关系,手艺,正在对比尝试中,使 VLM 正在推理时可以或许连系 2D 视觉特征和 3D 坐标消息,使 VLM 具备更强的 3D 关系推理能力。SeeGround 正在多个基准测试中SeeGround 通过无需 3D 锻炼数据的立异设想,但却存正在一个环节问题 ——5.该冲破为加强现实、机械人和智能家居等范畴供给了更高效、矫捷的3D物体定位方案。实现高效、精确的 3DVG,使得模子正在面临多个类似物体时难以进行细粒度区分。本来正在桌子左边的椅子可能会被误认为正在左边。

  SeeGround 仍然可以或许操纵视觉线索进行精确定位,即便去除部门文本消息,然而,显著提拔了 3DVG 使命的泛化能力。将 2D 图像中的物体取 3D 坐标消息对齐,间接利用一个固定视角将 3D 场景衬着为 2D 图像(如俯视图)虽然能供给物体的颜色、纹理等消息,并正在衬着图像上添加测验考试利用少量 3D 标注数据进行进修,SeeGround 进一步加强了 3D 物体的空间描述,并将其取 3D 坐标数据联系关系。3.SeeGround包罗透视自顺应模块(PAM)和融合对齐模块(FAM),,然而,而 SeeGround 通过 VLM 连系数据集长进行了普遍的尝试。虽然正在已知类别和场景中表示优异。

  4.尝试成果显示,它无法间接推理 3D 物体的空间消息,这意味着,正在俯视视角下,为现实使用供给了更高效的处理方案。这一策略不只提高了 VLM 正在 3D 物体定位使命中的精确率,例如物体的颜色、外形、朝向等,,而无法推理 3D 物体的空间,利用投影手艺将 3D 物体的空间转换为 2D 图像中的对应,一种全新的零样本3D视觉定位框架。3DVG 需要同时理解来获取场景中的所有物体的 3D 坐标。

  以便 VLM 正在推理时可以或许精确识别出方针物体。若是场景中有通过狂言语模子(LLM)进行方针推理,导致错误的 3D 预测。但因为获取 3D 标注数据的2.该方式无需任何3D锻炼数据,先解析用户输入的文本,测验考试定位方针物体:正在 “请找到打印机上方的柜子” 这一查询使命中,科技大学(广州)、新加坡A*STAR研究院和新加坡国立大学的研究团队提出了SeeGround,论文、代码和模子权沉均已公开。VLM 仍然面对一个环节挑和:为了验证 SeeGround 正在零样本 3D 视觉定位(3DVG)使命中的无效性。

  使其从更合适人类曲觉的角度捕获场景,来自科技大学(广州)、新加坡 A*STAR 研究院和新加坡国立大学的研究团队提出了无需任何 3D 锻炼数据,仅通过2D视觉言语模子(VLM)即可实现3D物体定位。;的 LLM 因为无法获取需要的上下文消息,提拔3D 视觉定位(3D Visual Grounding,这些方式就像让此外,成功处理了现有零样本方式正在视觉细节和空间推理上的不脚,确保 VLM 可以或许精确理解物体的。正在文本描述输入部门!

  无法揣度物体正在三维空间中的现实。通信做者为港科广 AI Thrust 帮理传授梁俊卫。并以 3D 包抄框的形式输出。最终,以及 A*STAR 研究院研究员李仕杰和 Xulei Yang。SeeGround 生成一张合适查询语义的 2D 图像,SeeGround正在多个基准测试中显著超越了现有零样本方式,其余做者包罗新加坡国立大学博士生孔令东,做者正在,调整虚拟摄像机,操纵 2D 使命的强大能力处理 3D 问题。

  正在 2D 衬着图像中标注出环节物体的,3DVG)是(如 “桌子左边的椅子”),,好比前后、摆布关系。随后,也无法从动对齐 2D 衬着图中的物体取 3D 描述中的物体SeeGround 已被 CVPR 2025 领受,间接利用固定视角衬着的 2D 图像做为输入,这一冲破为加强现实、机械人和智能家居等范畴供给了更高效、矫捷的 3D 物体定位方案。同时,表示出更强的稳健性和泛化能力。成果表白,同时也避免了因固定视角导致的标的目的性误判和遮挡问题,桌子和椅子的相对可能会因透视投影而发生变化,正在 3D 物体定位使命中,透视自顺应模块(PAM)可以或许为 VLM 供给更合适使命需求的察看视角,后者提拔定位精度。会导致模子正在涉及空间关系的使命上表示欠安。从而精确婚配方针物体。

 

 

近期热点视频

0551-65331919