云知声发布“山海·知音”2.0，依托Atlas基座实现多模态交互全面升级_前沿科技

云知声发布“山海·知音”2.0，依托Atlas基座实现多模态交互全面升级

创始人

2026-01-29 01:00:42

0次

近日，云知声正式对外发布“山海·知音”大模型2.0版本，标志着企业在“一基两翼”技术战略布局上完成了关键拼图，依托“山海·Atlas”通用智算基座的强大支撑，实现了从感知到交互的全面进化，旨在打造听得清、说得真、懂人心的下一代智能交互体验。

作为本次升级的核心，“山海·知音”2.0在语音识别（ASR）、语音合成（TTS）及端到端全双工交互三大维度实现了技术突破。在语音识别层面，模型展现了极强的环境适应性与专业理解力。测试数据显示，在复杂噪音与方言口音场景下，其性能较主流ASR模型提升了2.5%至3.6%，复杂背景音下的识别准确率业内首次突破90%。更值得关注的是，该模型不再局限于“听字”，而是进化至“理解事”的层面，通过结合上下文与行业知识图谱，在医疗、汽车等垂直场景的专业术语识别精度提升了30%。例如在医疗场景中，模型能对“依帕司他”等生僻药名进行定向增强识别；在通用场景下，支持30余种中文方言及14种国际语言的精准转写，并融合视觉语义构建视听闭环，彻底打破了语言与环境的壁垒。

在语音合成（TTS）方面，“山海·知音”2.0追求高度拟人化与情感温度。系统支持12种方言及10种外语的合成，涵盖粤语、四川话、日语、泰语等，并能细腻还原清嗓、笑声、呼吸声等细节。针对传统大模型语音合成延迟高的痛点，云知声创新研发了基于纯因果注意力机制的流匹配模块，并与神经声码器联合优化，构建了端到端纯流式推理架构。这一技术创新将首包延迟压缩至90毫秒以内，在保证播音级音质的同时，实现了业界领先的实时交互水平，让AI语音不再机械冰冷。

此外，端到端全双工交互能力的引入，让人机对话真正实现了“行云流水”。不同于传统的一问一答模式，新模型支持随时打断、即时接话与连贯追问，能够在流式收声的同时同步完成理解、决策与生成。这种类似真人朋友间的自然交流体验，得益于“山海·Atlas”智算基座对多模态大模型底座与基础架构的深度整合，将传统的级联模块升级为统一的端到端大模型。

依托“山海·Atlas”算力底座与垂直领域经验，新模型在多模态感知及端到端交互上的突破，为医疗、汽车等行业提供了高自然度、低延迟的通用交互中枢。此次升级不仅推动了人机交互从指令执行向智能伙伴关系的演进，更为智能体时代的产业落地提供了具备高可用性的技术范本。

上一篇：外媒评测问界M9：大块头低风阻性价比优势碾压路虎

下一篇：熙泰智能取得硅基OLED强微腔结构专利，有效增加器件发光能力

云知声发布“山海·知音”2.0，依托Atlas基座实现多模态交互全面升级

相关内容

热门资讯