字节跳动暂停 Seedance 2.0 的脸部照片转语音功能

字节跳动最近发布了 AI 视频生成工具 Seedance 2.0,它能同时处理多达四种类型的输入:图像、视频、音频和文本。用户能组合九张图像、三个视频和三个音频文件最多十二个文件。生成的视频时长为 4-15 秒(或 60 秒),能自动添加音效或音乐。但由于潜在的安全风险,字节跳动禁用了 Seedance 2.0 的人脸转语音功能。模型展现了能仅仅根据面部图像生成高度精确的个人语音的能力。根据脸部照片生成个人声音不是新研究,早在 2024 年的 USENIX 安全会议上,新加坡国立大学的研究人员就发表论文《Can I Hear Your Face? Pervasive Attack on Voice Authentication Systems with a Single Face Image》,介绍根据人脸生成语音攻击语音身份验证系统,因为人脸特征与语音特征之间存在高度关联。

上一篇:

下一篇:

已有 0 条评论 新浪微博