微软发布 DragonV2.1 模型:AI 转录语音更自然,单词错误率平均下降 12.8%、支持合成超 100 种语言
GoodNav 报道,微软今日发布 DragonV2.1Neural 零次学习模型,该模型只需少量数据即可生成自然、富有表现力的语音,支持超过 100 种语言。
这款文本转语音 (TTS) 模型能够提供更自然、更具表现力的语音,提高发音准确性并增强可控性。它只需要几秒钟的语音样本就能合成超过 100 种语言的语音,显著优于此前版本 DragonV1 在专有名词发音上的不足。
DragonV2.1 模型应用广泛,例如定制聊天机器人声音和为多语言视频配音等。微软表示,该模型的单词错误率 (WER) 平均降低了 12.8%,显著提升了发音准确性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...