DynamicCity是由上海人工智能实验室联合卡耐基梅隆大学、新加坡国立大学和南洋理工大学共同开发的一种面向 4D 场景的生成框架。它专注于生成具有语义信息的动态 LiDAR 场景,能够处理大规模空间(80×80×6.4 m³)和长序列(最多 128 帧)的数据。该框架通过在潜空间显式建模场景的空间布局与动态变化,并借助扩散模型直接生成高质量的动态场景。
DynamicCity功能特点:
1、高效时空特征压缩:
DynamicCity 提出基于 Transformer 的投影模块(Projection Module),将 4D 点云序列压缩为六个 2D 特征平面(HexPlane)。相比传统方法,其 mIoU 提升 12.56%,结合 Expansion and Squeeze Strategy (ESS) 后,重建精度提升 7.05%,内存消耗降低 70.84%。
2、创新的特征重组方法:
采用 Padded Rollout Operation (PRO) 将 HexPlane 特征重组为适配扩散模型(Diffusion Transformer, DiT)的特征图,最大程度保留结构化信息,帮助模型更好地学习潜空间。
3、强大的可控生成能力:
DynamicCity 支持多种可控生成方式,包括:
– 轨迹引导生成:通过输入目标轨迹,引导场景中车辆的运动。
– 指令驱动生成:基于指令(如“左转”、“右转”)控制自车或场景的运动。
– 布局条件生成:根据鸟瞰图布局生成符合交通规则的动态场景。
– 4D 场景修改(Inpainting):对部分缺失或损坏的场景进行修复。
4、高质量 4D 场景生成:
DynamicCity 能够生成大规模、高质量的动态 LiDAR 场景,捕捉真实世界环境中动态变化的时空演变,支持长达 128 帧的长序列生成。
5、多样化下游应用:
DynamicCity 可应用于自动驾驶、机器人技术等多个领域,支持轨迹预测、布局控制、自车运动控制及场景修改等任务。
DynamicCity相关网址:
1、项目官网:https://dynamic-city.github.io/
2、GitHub仓库:https://github.com/3DTopia/DynamicCity
3、arXiv技术论文:https://arxiv.org/pdf/2410.18084
PhotoDoodle:AI图像编辑新突破,一键将照片转化为艺术作品
MagicArticulate:自动骨架生成与蒙皮权重预测的创新框架,让3D模型动画化更高效
AvatarGO:一款由香港大学等联合推出4D人物交互生成和动画框架
标签: 4D框架, 上海人工智能实验室, 南洋理工大学, 卡耐基梅隆大学, 新加坡国立大学
上面是“DynamicCity:上海人工实验室联合多家大学共同开发的一种面向4D场景的生成框架”的全面内容,想了解更多关于 IT知识 内容,请继续关注web建站教程。
当前网址:https://ipkd.cn/webs_17413.html
workflows工作流
一个男孩在吃西瓜ComfyUI工作流
一只张大嘴巴露出锋利的牙齿正在咆哮的雪豹
一个白色的咖啡杯,蒸汽从杯子里冒出来
一个戴着破旧莎帽子的机械忍者站在冰林中
一张严重受损的宇宙飞船的照片ComfyUI工作流
一个迷人的女人ComfyUI工作流
一尊白玉猴王ComfyUI工作流
一棵树从鸟笼里长出来的梦幻般场景
猜你喜欢
声明:本站提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请发送到邮箱:admin@ipkd.cn,我们会在看到邮件的第一时间内为您处理!