微軟開源音頻模型Vibe Voice1.5B 可連續合成90分鐘語音

2025-08-26 10:24:20

微軟研究院開源VibeVoice-1.5B音頻模型，實現一次性連續合成90分鐘超長逼真語音，突破此前60分鐘上限及音色漂移難題。

觀點網訊：8月26日，微軟研究院在美國宣布開源創新音頻模型VibeVoice-1.5B，該模型一次性可連續合成90分鐘超長逼真語音，顯著超越此前多數模型60分鐘的上限。

根據公開資料整理，VibeVoice-1.5B在語音合成時長、音色穩定性及語義連貫性方面實現多項突破。傳統模型在30分鐘後常出現音色漂移、語義斷裂等問題，而VibeVoice-1.5B通過架構優化有效緩解上述缺陷，為長音頻内容創作、有聲讀物及虛拟助手等場景提供更穩定的技術支持。

免責聲明：本文内容與數據由觀點根據公開信息整理，不構成投資建議，使用前請核實。

審校：楊曉敏

你可能感興趣：

中國移動北京公司推出個人算力Token套餐最低5.99元起

中國移動北京公司面向個人用戶推出算力Token套餐，以Token為計費單位、按需付費，旨在降低AI使用門檻，推動算力普惠。

返回