金融界2024年12月12日消息,国家知识产权局信息显示,广州视源电子科技股份有限公司申请一项名为“语音合成方法及其模型训练方法、装置以及存储介质”的专利,公开号 CN 119107929 A,申请日期为 2023 年 6 月。
专利摘要显示,本申请提供一种语音合成的模型训练方法、语音合成方法、语音合成装置以及计算机可读存储介质。该语音合成的模型训练方法包括:将语音文本输入待训练的语音合成模型,获取预测声学特征;基于实际频谱能量高密度子空间矩阵和预测频谱能量高密度子空间矩阵,获取频谱相似度损失值;基于实际频谱能量低密度子空间矩阵和所述预测频谱能量低密度子空间矩阵,获取能量分布损失值;按照频谱相似度损失值和能量分布损失值,对语音合成模型进行训练。通过上述方式,语音合成装置通过频谱相似度损失函数和能量分布损失函数对语音合成模型进行训练,以缓解合成语音整体平淡、局部瑕疵的问题,提高语音合成效果。
来源:金融界