該模型是業界首個全場景音頻統一生成模型,可在同一條音軌中同時生成語音、環境音效與音樂,用戶通過自然語言即可對音色、語速、語調等參數進行精細控制。
觀點網訊:2月11日,螞蟻集團開源發布全模态大模型Ming-Flash-Omni2.0。該模型是業界首個全場景音頻統一生成模型,可在同一條音軌中同時生成語音、環境音效與音樂,用戶通過自然語言即可對音色、語速、語調等參數進行精細控制。
根據公開資料整理,Ming-Flash-Omni2.0實現了3.1Hz的極低推理幀率,可完成分鐘級長音頻的實時高保真生成,部分性能指標超過Gemini 2.5 Pro,同時其開源屬性将降低相關領域的開發復雜度。
免責聲明:本文内容與數據由觀點根據公開信息整理,不構成投資建議,使用前請核實。
審校:
