字节跳动暂停 Seedance 2.0 的脸部照片转语音功能

字节跳动最近发布了 AI 视频生成工具 Seedance 2.0，它能同时处理多达四种类型的输入：图像、视频、音频和文本。用户能组合九张图像、三个视频和三个音频文件最多十二个文件。生成的视频时长为 4-15 秒（或 60 秒），能自动添加音效或音乐。但由于潜在的安全风险，字节跳动禁用了 Seedance 2.0 的人脸转语音功能。模型展现了能仅仅根据面部图像生成高度精确的个人语音的能力。根据脸部照片生成个人声音不是新研究，早在 2024 年的 USENIX 安全会议上，新加坡国立大学的研究人员就发表论文《Can I Hear Your Face? Pervasive Attack on Voice Authentication Systems with a Single Face Image》，介绍根据人脸生成语音攻击语音身份验证系统，因为人脸特征与语音特征之间存在高度关联。