微軟開源音頻模型Vibe Voice1.5B 可連續合成90分鐘語音

AI 科技 2025-08-26 10:24:20
微軟研究院開源VibeVoice-1.5B音頻模型,實現一次性連續合成90分鐘超長逼真語音,突破此前60分鐘上限及音色漂移難題。

觀點網訊:8月26日,微軟研究院在美國宣布開源創新音頻模型VibeVoice-1.5B,該模型一次性可連續合成90分鐘超長逼真語音,顯著超越此前多數模型60分鐘的上限。

根據公開資料整理,VibeVoice-1.5B在語音合成時長、音色穩定性及語義連貫性方面實現多項突破。傳統模型在30分鐘後常出現音色漂移、語義斷裂等問題,而VibeVoice-1.5B通過架構優化有效緩解上述缺陷,為長音頻内容創作、有聲讀物及虛拟助手等場景提供更穩定的技術支持。

免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。

審校:楊曉敏
返回