云知声发布“山海·知音”2.0,依托Atlas基座实现多模态交互全面升级
创始人
2026-01-29 01:00:42
0

近日,云知声正式对外发布“山海·知音”大模型2.0版本,标志着企业在“一基两翼”技术战略布局上完成了关键拼图,依托“山海·Atlas”通用智算基座的强大支撑,实现了从感知到交互的全面进化,旨在打造听得清、说得真、懂人心的下一代智能交互体验。

作为本次升级的核心,“山海·知音”2.0在语音识别(ASR)、语音合成(TTS)及端到端全双工交互三大维度实现了技术突破。在语音识别层面,模型展现了极强的环境适应性与专业理解力。测试数据显示,在复杂噪音与方言口音场景下,其性能较主流ASR模型提升了2.5%至3.6%,复杂背景音下的识别准确率业内首次突破90%。更值得关注的是,该模型不再局限于“听字”,而是进化至“理解事”的层面,通过结合上下文与行业知识图谱,在医疗、汽车等垂直场景的专业术语识别精度提升了30%。例如在医疗场景中,模型能对“依帕司他”等生僻药名进行定向增强识别;在通用场景下,支持30余种中文方言及14种国际语言的精准转写,并融合视觉语义构建视听闭环,彻底打破了语言与环境的壁垒。

在语音合成(TTS)方面,“山海·知音”2.0追求高度拟人化与情感温度。系统支持12种方言及10种外语的合成,涵盖粤语、四川话、日语、泰语等,并能细腻还原清嗓、笑声、呼吸声等细节。针对传统大模型语音合成延迟高的痛点,云知声创新研发了基于纯因果注意力机制的流匹配模块,并与神经声码器联合优化,构建了端到端纯流式推理架构。这一技术创新将首包延迟压缩至90毫秒以内,在保证播音级音质的同时,实现了业界领先的实时交互水平,让AI语音不再机械冰冷。

此外,端到端全双工交互能力的引入,让人机对话真正实现了“行云流水”。不同于传统的一问一答模式,新模型支持随时打断、即时接话与连贯追问,能够在流式收声的同时同步完成理解、决策与生成。这种类似真人朋友间的自然交流体验,得益于“山海·Atlas”智算基座对多模态大模型底座与基础架构的深度整合,将传统的级联模块升级为统一的端到端大模型。

依托“山海·Atlas”算力底座与垂直领域经验,新模型在多模态感知及端到端交互上的突破,为医疗、汽车等行业提供了高自然度、低延迟的通用交互中枢。此次升级不仅推动了人机交互从指令执行向智能伙伴关系的演进,更为智能体时代的产业落地提供了具备高可用性的技术范本。

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
我市特步5G工厂入选国家5G工... 日前,工业和信息化部发布《关于2024年5G工厂名录的公示》,我市特步5G工厂入选国家5G工厂名录,...
卫星化学获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示卫星化学(002648)新获得一项实用新型专利授权,专利名为“...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
360智脑张向征:构建安全可信... 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
联想宣布旗下AIPC个人智能体... DoNews2月7日消息,近日,联想宣布个人智能体“小天”已接入DeepSeek,除了目前可以在联想...
2025年消脂设备产业数据报告 消脂仪是医学美容领域的医疗器械。 它使用激光和微波等设备根据其波长向真皮/皮下平面发射能量; 通过加...