创作
活动

字节OmniHuman一张图配上音频,就能直接生成会说话的数字分身

0
0
收藏
分享
转发到光网
微博
QQ空间
微信
微信扫一扫
2025-02-11 10:28
元宇宙阅读实验室

近日,字节跳动数字人团队推出了新的多模态数字人方案OmniHuman,其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。

即梦 AI 相关负责人透露,该模型未来会进行小范围内测,官方也会对这一功能设置严格的安全审核机制,并对输出的视频标注水印以作提醒。

业内人士表示,OmniHuman通过引入多模态条件驱动和全条件训练策略,成功解决了人类动画生成领域长期存在的数据扩展和泛化能力问题。

这一发展出现在AI视频生成技术竞争日益激烈的背景下,谷歌、Meta和微软等公司也在积极追逐类似技术。

个人用户、MCN 机构等都能利用它快速生成虚拟主播、虚拟偶像、虚拟客服、虚拟教育等各种形式的数字人内容,为商业化变现提供更多可能。

字节跳动表示,和一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1 能够生成逼真的全身动画,且能将手势和面部表情与语音或音乐精准同步。

传统 AI 数字人模型多基于姿势驱动或音频驱动,OmniHuman 则可以基于单个人体图像和运动信号,如仅音频、仅视频或音频和视频的组合生成人体视频,极大地降低内容创作的门槛。

声明:凡注明为其它来源的由光网号的作者撰写,观点仅代表作者本人,不代表平台立场。
喜欢就给个赏吧
0人已打赏
images
+关注
已关注
转发
100
洲明体育正式成为英超曼城足球俱乐部官方LED显示战略合作伙伴
举报
意见反馈
城市光网微信平台
城市光网小程序
意见反馈