ICCV 2023
机械之心专栏
作者:MMLab@NTU
来自南洋理工大学以及商汤科技的钻研者散漫提出了一种全新的文本驱动措施天生框架——ReMoDiffuse 。
人体措施天生使命旨在天生传神的人体措施序列,以知足娱乐 、伪造事实、机械人技术等规模的需要 。传统的天生措施搜罗 3D 脚色建树、关键帧动画以及措施捉拿等步骤 ,其存在诸多限度 ,如耗时较长,需要业余技术知识,波及高尚的零星以及软件,差距软硬件零星之间可能存在兼容性下场等 。随着深度学习的睁开 ,人们开始试验运用天生模子来实现人体措施序列的自动天生 ,好比经由输入文本形貌,要求模子天生与文本要求相立室的措施序列。随着散漫模子被引入这个规模 ,天生措施与给定文本的不同性不断后退。
可是,天生措施的做作水平离运用需要仍有很大差距 。为了进一步提升人体措施天生算法的能耐,本文在 MotionDiffuse [1] 的根基上提出了 ReMoDiffuse 算法(图 1) ,经由运用检索策略 ,找到高相关性的参考样本,提供细粒度的参考特色,从而天生更高品质的措施序列 。
论文链接 :https://arxiv.org/pdf/2304.01116.pdf
GitHub:https://github.com/mingyuan-zhang/ReMoDiffuse
名目主页:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
经由怪异地将散漫模子以及立异的检索策略融会,ReMoDiffuse 为文本教育的人体措施天生注入了新的性命力 。经由精心想象的模子妄想 ,ReMoDiffuse 不光可能缔造出丰硕多样 、着实度高的措施序列 ,还能实用地知足种种长度以及多粒度的措施需要。试验证实,ReMoDiffuse 在措施生陋习模的多个关键子的上展现卓越,清晰地逾越了现有算法。
措施介绍
ReMoDiffuse 主要由两个阶段组成:检索以及散漫。在检索阶段,ReMoDiffuse 运用混合检索技术,基于用户输入文本以及预期措施序列长度 ,从外部的多模态数据库中检索出信息丰硕的样本 ,为措施天生提供强有力的教育 。在散漫阶段,ReMoDiffuse 运用检索阶段检索到的信息,经由高效的模子妄想 ,天生与用户输入语义不同的行动序列。
为了确保高效的检索,ReMoDiffuse 为检索阶段精心妄想了如下数据流(图 2):
共有三种数据退出检索历程 ,分说是用户输入文本、预期措施序列长度,以及一个外部的 、搜罗多个 < 文本 ,措施 > 对于的多模态数据库 。在检索最相关的样本时 ,ReMoDiffuse 运用公式一起作为输入给散漫阶段的信号,教育措施天生。
合计出每一个数据库中的样本与用户输入的相似度。这里的第一项是运用预磨炼的 CLIP [2] 模子的文本编码器对于用户输入文本以及数据库实体的文本合计余弦相似度