XPortrait 2模型亮相:一图生成“电影级”视频,表情神态全还原
单图视频驱动技术,即只需一张静态照片和一段驱动视频,即可生成高质量、“电影级”的视频。字节跳动智能创作团队于近日推出最新单图视频驱动技术 X-Portrait 2,该模型不仅能保留原图的 ID,还能捕捉并迁移从细微到夸张的表情和情绪,简化了现有动作捕捉、角色动画和内容创作流程。
以之前的X-Portrait 为基础,将肖像动画的表现力提升到了一个全新的水平。为了实现这一点,我们构建了一个最先进的表情编码器模型,通过在大型数据集上进行训练,隐式编码输入中的每个微小表情。然后,将此编码器与强大的生成扩散模型相结合,生成流畅且富有表现力的视频。我们的 X-Portrait 2 模型可以传输演员的细微和微小的面部表情,以及包括撅嘴、吐舌头、鼓起脸颊和皱眉在内的具有挑战性的表情。生成的视频还可以实现高保真度的情绪保存。 比如这段视频,视频人物表情非常夸张,脸部肌肉变化丰富,头部有大范围摆动,都能够很好迁移到生成视频中,动作非常自然,每一个肌肉牵动和光影都真实到了影视级别。系统还为人物计算出了侧脸和后脑的部分,也没有违和感。 只需一张静态照片和一段驱动视频,X-Portrait 2即可将视频中从细微到夸张的表情和情绪,迁移到静态照片中,让照片里的人物像视频一样生动地“活过来”。 简单的表情变化,如挑眉、咬唇等,难度较大的表情,比如撅嘴、吐舌头、鼓腮帮和皱眉等,都能高清重现,并高度保留情感的真实感,让生成的视频中的人物情感表达更加细腻、丰富和自然,仿佛真人再现。 在玩家面部捕捉方面,X-Portrait 2同样具有巨大的应用潜力。在未来算力和时延问题解决之后,实时的面部捕捉对于VR游戏非常有意义。目前在类似VRChat的聊天室中,玩家只能通过设备简单捕捉手部、腿部、眼睛,更多还是语言和肢体交流,信息量很大的表情是缺失的。 除此之外,在影视后期制作、虚拟直播、数字人创作等领域,X-Portrait 2也都有着广泛的应用前景。在影视后期制作中,可以利用该技术对一些未完成拍摄的镜头进行补拍,或者对已有镜头进行特效处理,提升影片的视觉效果。 在虚拟直播中,主播可以利用自己的照片生成虚拟形象,然后通过实时的表情和动作驱动,让虚拟形象更加生动地与观众互动。在数字人创作方面,X-Portrait 2能够让数字人更加逼真地模仿人类的表情和动作,使其在各种场景下的应用更加自然流畅。 进一步将这个编码器与强大的生成式扩散模型相结合,即可生成流畅且富有表现力的视频。经过在大规模高质量表情视频上的训练,X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。