【人工智能】微軟研發AI語音模型可仿真人:AI仿真人發聲、語氣,或惹Deepfake危機?
人工智能(AI)成為2023年科技大趨勢,AI畫圖、寫論文等技術讓人驚歎,但由此而生的倫理和道德問題亦備受熱議。近日,微軟(Microsoft)發佈了最新的AI模型VALL-E,其可將3秒長度的語音樣本,模仿成某個真人的發聲,更可匹配成不同的說話語氣。
VALL-E屬於「神經編解碼語言模型」(Neural Codec Language Model),核心技術則來自Meta的AI壓縮神經網絡「Encodec」。微軟表示,研究人員是透過Meta的LibriLight語音庫中來自7,000多名演講者,共6萬小時英語語音來訓練VALL-E。
為改進VALL-E,微軟正計畫擴大其訓練數據,以提高模型在語氣、說話風格和說話相似度方面的表現,並減少不清楚或遺漏詞語的情況。
但微軟提到,由於該模型能合成為某人的語音,可能存在濫用,因而造成類似「深偽技術」(Deepfake)的欺詐風險,因此暫時不會開放VALL-E的代碼。