在人工智能技术持续突破的背景下,语音合成领域迎来一项重要创新成果。科大讯飞股份有限公司近日宣布获得一项名为“语音合成方法、装置、电子设备及存储介质”的发明专利授权,该专利通过引入语气描述文本的联合编码机制,为语音合成技术开辟了新的发展路径。这项突破性技术通过将自然语言形式的语气指令融入模型训练,使系统能够精准捕捉并还原语音中的情感、语调等非语义特征,显著提升了合成语音的拟人化程度。
专利技术文档显示,该创新方案突破了传统语音合成仅依赖文本内容的局限,通过构建双通道编码架构,将语气描述文本与原始文本进行深度融合。这种设计使系统能够同时解析语义信息和情感指令,在生成语音时实现语速、音调、节奏的动态调整。例如在教育场景中,系统可根据学习者的情绪反馈自动切换鼓励或严肃的语气,在客服场景中则能通过语调变化传递专业或亲和的服务态度。
尽管科大讯飞2025年度专利授权总量较上年下降35.63%至56项,但研发投入持续保持增长态势。公开数据显示,该公司上半年研发支出达20.68亿元,同比增长6.99%,研发投入强度维持在行业领先水平。这种"减量提质"的专利策略,反映出企业从追求数量向聚焦核心技术的战略转型。目前,科大讯飞已构建起涵盖4041项商标、6001项专利、1683项著作权的立体化知识产权体系。
在应用生态建设方面,该技术已形成多场景落地能力。智能助手领域,系统可根据用户历史交互数据建立个性化语音模型;娱乐产业中,语音合成技术为虚拟偶像提供自然流畅的对话能力;医疗场景下,系统通过调整语气缓解患者焦虑情绪。据统计,科大讯飞参与的招投标项目累计达7241次,对外投资企业133家,形成覆盖技术研发、场景应用、产业协同的完整生态链。
行业分析师指出,这项专利解决了语音合成领域长期存在的情感表达生硬、场景适配性差等痛点。通过将语气控制从固定参数升级为自然语言指令,系统可适配更多元化的应用场景。特别是在需要高度情感交互的领域,如心理健康辅导、老年关怀服务等,该技术展现出显著的应用价值。随着5G和物联网设备的普及,语音交互正成为人机交互的主要形态,这类技术创新将持续推动行业边界拓展。

