科大讯飞主导国际数字人标准制定:两项 ITU规范通过结项
创始人
2025-11-25 19:20:41
0

在2025年科大讯飞全球1024开发者节的现场,数字人“小飞”正与三人畅聊。TA会听能看,记得住对话人的身份、历史信息并给出贴心提醒,观察细节之后能给出详细的信息介绍与位置导览,甚至一键帮忙订票;TA能说会道,高情商回复既自然又灵动,还能用外语和外国朋友谈天说地。TA还化身为数字人林黛玉,形象清丽、语气惟妙惟肖。

特别是在多人聊天时,“小飞”还能理解和分辨到底是在和自己对话,还是多人之间相互聊天,从而判断是否接话和插话。

这一系列流畅、自然且充满“人情味”的互动,标志着多模态超拟人交互技术已从概念探索迈入可用、好用的新阶段。

这一前沿技术展示的背后,离不开坚实的技术积淀与产业共识的支撑。就在不久前,国际电信联盟(ITU-T SG21)在瑞士日内瓦召开全体会议,由科大讯飞与中国信通院共同参与编辑的两项数字人国际标准——ITU-T F.748.63(基础模型增强的数字人系统框架及通用技术要求)与ITU-T F.748.64(数字人服务平台要求)——顺利通过结项,计划于2026年正式发布。这意味着,推动产业发展的技术实践,正在凝聚成全球公认的规范。

一、技术内核:多模态超拟人交互,让“更懂你”

“小飞”所展现的惊艳体验,源于其在感知、认知与表达三大层面的技术协同突破。

在信息感知层面,系统具备了“耳聪目明”的能力。此次展示的多模态交互系统具备5米0dB远场高噪语音识别能力,在嘈杂环境中也能精准识别,更加贴合真实的使用和交互场景。基于多模态语音增强技术,系统能融合语音、人脸、姿态等信息,结合说话人站位锁定多人对话中的目标,实现音频与说话人的绑定,攻克了多人高噪场景下的识别难题。同时,讯飞创新性地提出说话人引导的注意力增强方案,实现对交互区域的细粒度视觉信息感知,让视觉信息更加准确;进一步提出局部检索增强技术,通过视觉思维链提取局部关键区域,实现远场条件下的局部物体检索增强识别。

在认知与理解层面,数字人开始“读懂心意”。多人交互理解技术融合对话历史、语音活动状态等信息,加强了模型对多人复杂场景的理解能力,更好地把握和用户的交互时机,以及交互意图的精准判断,实现了响应速度和响应质量的平衡,既不“抢答”也不“乱答”。另外,多模态交互系统能够实现分钟级情感解析、深度共情,读懂对话人的真实心绪,回应“心领神会”的默契瞬间。

在表达与输出层面,交互变得更有温度。超拟人数字人能通过多模态前端定位说话人方位,像真人一样能视线跟随看向当前交互的对象,增强交互的真实感;数字人的回复也更加自然、共情,得益于多情感语音合成技术创新性研发了多轮上下文信息建模方案,能够对语音交互中的历史多轮QA音频和文本进行编码、感知对话人的情感变化,再通过语音合成大模型的自适应情感合成能力,让数字人的回复合成声音情绪语气随之变化,给出恰当的情感回应,在声音的自然度、情感表达、节奏停顿等细节上表现更好,尤其是在多轮交互中的效果提升显著。

值得一提的是,此次发布会上首发的个性化记忆能力也加入了超拟人交互系统,通过分层式动态记忆体架构,实现了长短期协同的精准用户记忆。结构化推理方案的设计,确保了模型在个性化任务中进行严谨的逻辑推理;借助强化学习在对齐用户个人偏好上持续优化,实现了从“内容个性化”到“沟通风格个性化”的进化,增强了多模态交互的个性化回复能力。

二、标准筑基:从技术实践到国际规范制定

技术上的领跑为规则制定提供了关键依据。此次科大讯飞能够主导国际标准的制定,离不开它在人工智能领域长期的技术积累和广泛的产品应用。

科大讯飞自主研发的星火大模型为数字人提供了深层的认知理解基础,而在语音、自然语言处理等领域的全栈式AI技术积累,则为实现自然流畅的人机交互奠定了基石。此前,科大讯飞的AI虚拟人交互平台通过了中国信通院人工智能研究所组织的大模型数字人基础能力分级测试,并获得最高等级L5认证,也进一步证明了讯飞AI虚拟人交互平台技术方案的先进性与成熟度。这些扎实且经过市场检验的技术能力,为其参与国际标准讨论与制定提供了重要依据,也将中国的技术实践融入了全球数字人产业发展的蓝图。

三、场景落地:双平台驱动产业智能应用

技术的终极价值在于应用。科大讯飞通过讯飞智作与讯飞AI虚拟人交互平台,将前沿技术转化为可规模落地的产品与服务。

讯飞智作作为一站式虚拟人音视频内容生产平台,不仅提供丰富多元的形象与声音,还支持仅凭一张照片、一句话快速生成专属数字人,目前已构建超10万数字分身,500万的声音复刻,广泛赋能教培、金融、文旅、政企等多个业务领域。

讯飞AI虚拟人交互平台则聚焦全栈式虚拟人多场景应用服务,让数字IP不仅“动起来”,更能“交互起来”。平台支持零代码快速嵌入小程序、导游机等终端,更提供智能交互机、移动数字人、AI 虚拟人直播机等软硬一体化方案,同时通过终端 SDK、服务端 API、公有云 API 及私有化部署等灵活接入方式,可适配 APP、Web、小程序等多种产品形态。

从多模态超拟人交互的技术突破,到参与国际标准制定的能力认证,再到双平台推动的产业赋能,科大讯飞在数字人领域形成了从技术到市场、从实践到标准的闭环。未来,随着“AI+行业”的持续深入,更智能、更自然的数字人有望在更多领域成为人类的智能伙伴。我们也将继续在多模态超拟人交互技术上踏实前行、持续进阶,不断带来新的惊喜。

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
我市特步5G工厂入选国家5G工... 日前,工业和信息化部发布《关于2024年5G工厂名录的公示》,我市特步5G工厂入选国家5G工厂名录,...
卫星化学获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示卫星化学(002648)新获得一项实用新型专利授权,专利名为“...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
360智脑张向征:构建安全可信... 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
2025年消脂设备产业数据报告 消脂仪是医学美容领域的医疗器械。 它使用激光和微波等设备根据其波长向真皮/皮下平面发射能量; 通过加...
良求机械取得一种高速升降机专利... 金融界2024年12月10日消息,国家知识产权局信息显示,良求机械有限公司取得一项名为“一种高速升降...