近日,云知声正式对外发布“山海·知音”大模型2.0版本,标志着企业在“一基两翼”技术战略布局上完成了关键拼图,依托“山海·Atlas”通用智算基座的强大支撑,实现了从感知到交互的全面进化,旨在打造听得清、说得真、懂人心的下一代智能交互体验。
作为本次升级的核心,“山海·知音”2.0在语音识别(ASR)、语音合成(TTS)及端到端全双工交互三大维度实现了技术突破。在语音识别层面,模型展现了极强的环境适应性与专业理解力。测试数据显示,在复杂噪音与方言口音场景下,其性能较主流ASR模型提升了2.5%至3.6%,复杂背景音下的识别准确率业内首次突破90%。更值得关注的是,该模型不再局限于“听字”,而是进化至“理解事”的层面,通过结合上下文与行业知识图谱,在医疗、汽车等垂直场景的专业术语识别精度提升了30%。例如在医疗场景中,模型能对“依帕司他”等生僻药名进行定向增强识别;在通用场景下,支持30余种中文方言及14种国际语言的精准转写,并融合视觉语义构建视听闭环,彻底打破了语言与环境的壁垒。
在语音合成(TTS)方面,“山海·知音”2.0追求高度拟人化与情感温度。系统支持12种方言及10种外语的合成,涵盖粤语、四川话、日语、泰语等,并能细腻还原清嗓、笑声、呼吸声等细节。针对传统大模型语音合成延迟高的痛点,云知声创新研发了基于纯因果注意力机制的流匹配模块,并与神经声码器联合优化,构建了端到端纯流式推理架构。这一技术创新将首包延迟压缩至90毫秒以内,在保证播音级音质的同时,实现了业界领先的实时交互水平,让AI语音不再机械冰冷。
此外,端到端全双工交互能力的引入,让人机对话真正实现了“行云流水”。不同于传统的一问一答模式,新模型支持随时打断、即时接话与连贯追问,能够在流式收声的同时同步完成理解、决策与生成。这种类似真人朋友间的自然交流体验,得益于“山海·Atlas”智算基座对多模态大模型底座与基础架构的深度整合,将传统的级联模块升级为统一的端到端大模型。
依托“山海·Atlas”算力底座与垂直领域经验,新模型在多模态感知及端到端交互上的突破,为医疗、汽车等行业提供了高自然度、低延迟的通用交互中枢。此次升级不仅推动了人机交互从指令执行向智能伙伴关系的演进,更为智能体时代的产业落地提供了具备高可用性的技术范本。