近日,Soul App对自研的端到端全双工通话大模型完成重磅升级,此次升级从技术底层到应用体验实现新的突破,让AI在语音交互中进一步提升“类真人”的沟通能力,为Soul用户带来更贴近现实社交的沉浸感。
在技术底层,新模型实现了革命性突破。传统语音交互依赖VAD(话音活性检测)机制和延迟控制逻辑,导致“轮次对话”成为行业常态,用户与AI只能“一来一往”地交流,极易产生机械感和延迟感。而Soul升级后的端到端全双工模型摒弃了这种模式,通过流式预测响应、倾听与打断行为,让AI获得自主决策对话节奏的核心能力。这意味着,AI不再被动等待用户结束发言,而是能像真人一样判断时机。当用户表达卡顿或话题暂停时,AI会主动打破沉默开启新话题;当用户观点需要补充或纠正时,AI能适时打断并回应。这种端到端的交互逻辑,让人机对话从“指令式响应”升级为“自然式交流”。
为了让交互更贴近真实社交,升级后的模型在多维度能力上进行了精细化打磨。
口语化与情感化表达:AI的语言风格摆脱书面化,融入大量日常交流元素,比如自然使用“嗯”“啊”等语气词,偶尔出现结巴、重复等真实说话特征,甚至会加入咳嗽、轻笑等生理反应音效。在情绪表达上,AI能根据对话内容呈现鲜明起伏,从开心的上扬语调,到生气的急促语气,再到难过的低沉声线,情绪变化与对话推进同步,让情感传递更真实。
多维度感知与整合能力:基于纯自回归模型架构,AI能深度整合人设、时间、环境及上下文信息。对场景和信息的精准感知,让AI的“数字人格”更立体。
目前,该模型已进入站内内测阶段,未来将率先落地于虚拟人实时通话、AI匹配等1V1场景,让一对一互动更具“在场感”。同时,Soul AI团队正探索多人场景的应用,计划让AI在群体对话中精准判断发言时机,主动衔接话题,推动多元社交关系的构建。
作为以“让天下没有孤独的人”为目标的新型社交平台,Soul此次对端到端全双工通话大模型的升级,不仅是技术层面的突破,更重新定义了AI社交的交互标准。通过让AI真正具备“会说话、懂时机、有情感”的能力,Soul正一步步实现“让人机交互成为情感与信息双向交流”的愿景,为用户构建更丰富的社交体验。
(来源:财商资讯)