近日,北师港浸大(BNBU)理工科技学院计算机科学系本科生团队在计算机三维视觉领域取得新进展。2023级本科生李欣泽作为第一作者完成的论文“S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models”,在程文韬博士指导下,成功被该领域国际旗舰会议——IEEE International Conference on Multimedia & Expo(ICME 2026)接收。该成果不仅展现了我校本科生扎实的科研实力,也体现了学校在跨学科人才培养方面的显著成效。
自动驾驶要精准避障,机器人要在真实环境中自如行动,都离不开“三维计算机视觉”——它通过多角度图像还原物理世界的真实空间结构。近年来,VGGT 等3D基础模型使该过程大幅提效,单次计算即可预测位姿、深度与三维结构。但这同时带来一个痛点:面对连续拍摄的海量图像,若让模型死板地“逐帧细看”,将产生极大的计算冗余,严重拖慢处理速度。
为突破这一速度瓶颈,研究团队提出了新方法 S-VGGT。不同于以往局限于压缩局部特征的思路,S-VGGT 直接从“全局图像序列”的宏观视角切入:它先利用模型自身的中间信息,将高相关画面划分为保留空间结构的“子场景”;随后通过共享参考帧,让各子场景在统一坐标系下实现高效的并行处理。这一巧妙设计在不损失重建质量的前提下,成功实现了处理速度的显著跃升。

李欣泽谈到,这项工作在预实验阶段经历了较长时间的摸索,过程并非一帆风顺。在程老师的指导下,团队通过反复论证构思并不断完善实验细节,最终取得了关键突破。本文第二作者、来自吉林大学的陈鹏旭也提到,在担任研究助理期间,得益于团队严谨的科研训练,其学术能力得到了全面提升。程老师在实验推进和论文修改过程中提供了许多建设性的意见,引导团队始终保持正确的科研方向。此外,本工作也得到了苏伟峰教授的大力支持。 此次成果的发表是对团队前期努力的肯定,也进一步坚定了大家在三维视觉领域持续深耕的信心。
会议介绍
本届 IEEE International Conference on Multimedia & Expo(ICME 2026)共收到3810篇有效投稿,最终录用1101篇论文,录用率为28.89%。作为多媒体领域的重要国际会议之一,ICME 也是中国计算机学会(CCF)推荐的B类会议,聚焦多媒体、人工智能、计算机视觉等前沿方向,在学术界具有广泛的影响力。ICME 2026 将于7月5日至9日在泰国曼谷举行,届时将汇聚全球相关领域专家学者,共同展示最新研究成果。
来源 | 计算机科学系