NVIDIA和MIT共同开发新的音频生成技术

- 编辑:大发棋牌官方网站入口 -

NVIDIA和MIT共同开发新的音频生成技术

最近,NVIDIA和MIT共同开发的一项新技术引起了人们的关注。 Technology称为Audio-SD,是一种扩展基于文本的爆炸模型的技术方法,该方法首次在音频生成领域应用了得分蒸馏采样(SDS)。近年来,音频扩散模型表现出强大的开发高质量音频的能力,但它们仍然存在优化具有清晰语义和可解释性的参数的局限性。新建议的音频-SD方法通过融合了垫子模型生成的强大能力和音频表示方法的强大能力,从而降低了这种限制。该过程可以轻松地应用于各种音频处理任务,而无需依赖大型数据集特定的工作,包括FM合成器参数的校准,声音合成的物理效应和声音资源分离。借助SDS程序,用户可以直接调整FM SyntheSIS参数,根据高级文本提示,声音模拟器设置或分离掩码的效果,以实现更容易有效的音频编辑。研究团队使用基于SDS的基于SDS的体系结构,基于SD,多步塑造机制和多尺度光谱图进行实验验证。结果表明,音频-SD在主观听觉测试和诊断检查的许多指标(例如拍手标记和信号失真比SDR)方面表现良好。音频-SD的主要优点之一是它支持许多音频激活的统一前模型,避免了对大量数据集的期望,并为产生音频和编辑提供了更一般的解决方案。但是,研究人员还教导说,在模型范围,潜在的编码工件和优化的稳定性方面,仍然存在改善程序的空间。该技术的提议带来了NEW的想法是音频生成领域的,还为将来创建音频内容提供了更好,灵活的可能性。