51Talk技术副总裁兼AI研究院院长蔡林
出品 | 搜狐科技
作者 | 张莹
编辑 | 杨锦
教师节前后,教育企业争相向外界秀肌肉。“首个通过教师资格证考试的AI老师”冲上热搜。51Talk也在教师节前夕发布全球首个超拟人AI外教“考拉AI”。
据了解,“考拉AI”能够实时识别学生的专注度与情绪变化、精准定位知识薄弱点,并通过强互动方式营造轻松敢说的氛围,激发主动表达的兴趣。
发布会后,搜狐科技独家对话51Talk技术副总裁兼AI研究院院长蔡林。
“AI+教育”不算新鲜的话题。单在语言教育上,国内的AI产品就已经层出不穷,比如高途推出吴彦祖AI口语陪练相关课程、VIPKID也推出了Mastar虚拟人等等。
不过在蔡林看来,真正的AI老师的比拼还没有开始。
他指出,目前市面上的AI老师用到的技术仍是“TTS + ASR + LLM”三段式:语音转文字,文本给到大模型,大模型又吐出来文本,文本再转语音。蔡林用5G时代类比于我们所处的阶段,而这一技术只能算是4G时代的技术。
他认为,5G时代应该是speech-to-speech(端到端语音)的技术,一定是“端到端”,中间零转换,就像 OpenAI 的 GPT-realtime、Google 的 Gemini Live。
蔡林表示,只有当“realtime”类的技术大规模出现,且成本降低,AI语言培训类产品才会到达更高的境界。这一时刻可能最晚在明年第二季度到来。
“我们最早做 AI 老师,是去年在海外跑体验课,用的就是realtime的技术,一节课的成本是45美元,很夸张。”蔡林分享道,Open AI 的代理商、微软都说,“不知道你们教育行业为什么都这么疯狂?”“这个东西这么贵,为什么消耗那么多钱去测?”
他认为,这个问题的背后是大家还没有意识到,下一代技术对语言类产品影响有多大。蔡林透露,51Talk也准备了“纯 realtime”的考拉AI产品,目前考虑到成本还没有放开。
在AI教育赛道,教育企业不仅面临着教育行业内部的竞争,同时面临着豆包等AI工具的竞争。
蔡林最近经常听到一个问题——“我有豆包了,为什么还要买你的课?”
在蔡林看来,用豆包坚持学英语是一个伪命题。而对于教育产品而言,激发学生持续学习的动力最为关键,并且需要有人陪伴和提供服务,才能坚持下去。
此外,从用户的角度来看,学习是一件严肃的事情,希望能看到效果。因此科学地规划学生的学习路径,培养他们的学习习惯非常重要。这跟单纯使用豆包去学习完全不同。
“现在市面上很多纯对话、没有教材、没有老师的语言学习课程,完课率都非常低。”
蔡林表示,“AI+教育”行业必须回归教育的本质。尽管蔡林是“老程序员”,但他仍认为,这一行业并非纯技术的比拼,而是比拼企业在行业里的认知和综合运营能力。
关于多模态、幻觉、AI和人的关系:
等成本降到足够低,多模态会成为教育产品必选项
搜狐科技:在做“考拉AI”的过程中,实时语音模型、视频模型的成本是一大问题吗?
蔡林:说实话,视频的成本还是挺高的。但是很多视频其实是一次性的,做完之后,就不需要再去做那么多复杂的东西了,而且视频是预生成的。
搜狐科技:51Talk已经开始尝试融合多模态数据,比如课堂表情识别,去判断学生的学习状态,这方面的成本呢?
蔡林:我觉得还行。现在的多模态识别并不是全程实时采集摄像头,而是取巧地“抽帧”,隔几秒抓一张图,扔给模型去解读。行业里基本都这么干,OpenAI也是,不断截屏喂给模型,算下来成本可以接受。
搜狐科技:未来多模态能力会是教育企业的必选项还是加分项?
蔡林:等成本降到足够低,多模态一定会变成必选项。纯文本模型“看不见”人,通过抽帧图像,模型就能“看见”用户,产品逻辑完全换了一层。
举个例子,智能体提前获取你的位置信息,今天你们在朝阳,外面阳光好,它就先问“空气很棒,心情怎么样?”如果当地下雪,它会说“我看到你们那儿下雪了,开心吗?”AI其实在模拟人,目的就是拉近孩子与AI的距离。
搜狐科技:大模型仍然存在幻觉问题,语言教育会不会也面临幻觉问题?
蔡林:一定会。我们也在反复地去想怎么尽量减少幻觉。我们的课中做了多智能体的架构,有一个智能体来去判断AI有没有胡说八道,这是我们微调出来的小模型。
大模型如果在垂直任务上经过专门训练,其实可以做得非常精确;但如果只依赖通用模型的基本能力,它的幻觉可能会非常严重。
搜狐科技:但是幻觉和想象力相辅相成,我们怎么去做平衡?
蔡林:我们现在其实做了一个取巧,在不同的场景里面给大家的开放程度不一样。有些场景极其严谨,你不能乱聊;有的场景可以去开放一点。
搜狐科技:AI技术是否改变了对教师的需求数量和素质要求?AI是会替代部分教师,还是赋能教师,让他们更专注于情感互动、高阶思维培养等AI难以替代的领域?
蔡林:我认为AI带来的改变不仅仅限于教师领域,而是关系到我们每个人。
前阵子出现了很多编程智能工具,比如Claude Code。一开始很多程序员特别焦虑,担心是不是要被替代了。但我们内部讨论之后,大家反而特别开心。因为这相当于把以前我们不愿意做的那些重复劳动,全都交给AI去干。
对教师来说也是一样的。AI可以帮助教师摆脱重复性工作,从而更专注于提供人性中最温暖的东西。越是在AI强大的时代,人的价值反而越凸显。
搜狐科技:怎么平衡AI和人的参与度?
蔡林:我们现在是设计了真人的服务在里面,可以给学生提供一些情绪价值。真人教学目前还没有加,考拉现在还是一个纯粹的AI native的产品。
关于发展现状、行业竞争:
最晚明年Q2,AI老师的比拼会真正开始
搜狐科技:目前教育企业都在推出AI相结合的产品,比如高途的吴彦祖AI口语陪练等等,现在英语教育产品是否会面临同质化竞争?
蔡林:大家可能认为AI教育产品已经百花齐放,或者说大家都卷得差不多了。我反而认为真正的AI老师的比拼还没开始。
因为现在所有的公司用到的技术仍是“TTS + ASR + LLM”三段式:语音转文字,文本给到大模型,大模型又吐出来文本,文本再转语音。如果说我们现在是5G时代,这一代技术可能还是一个4G时代的技术。5G 时代应该是speech-to-speech的技术,语音进、语音出,中间零转换,就像 OpenAI 的 GPT-realtime、Google 的 Gemini Live。
我们现在要感知到这个学生的情绪,要去分析他的图像,把他的声音转成文字,来判断他情绪是不是饱满。下一代的技术一定是“端到端”,只听声音就能判断你是开心还是悲伤。
现在还没有达到(真正的AI老师)临界点。只有当“realtime”类的技术大规模出现、成本降低, AI 语言培训类的产品才会真正到达更高的境界。现在看到的产品都不是最终形态。
搜狐科技:您觉得这个临界点会在什么时候?
蔡林:可能会很快,我估计最晚明年Q2。
搜狐科技:到时候AI教育产品是不是会卷到另外一个程度?
蔡林:一定会。我们最早做 AI 老师,是去年在海外跑体验课,直接跟真人老师做 AB 测试。当时我们用的就是realtime的技术,云进云出,一节课的成本是45美元,很夸张。
当时我们跟Open AI 的代理商、微软去沟通,大家都说,不知道你们教育行业为什么都这么疯狂?这个东西这么贵,为什么每天消耗那么多钱去测?
因为大家还没意识到,下一代技术对语言类产品影响有多大。我们所有的努力都是试图接近 realtime的形态去提供教学。我们还有一个“纯 realtime”的版本,考虑到成本没有放开,只要条件具备,我们随时切换。
搜狐科技:不仅是教育企业,一些通用大模型同样可以进行英语对话,比如豆包等,那我们的优势在哪里?
蔡林:我有豆包了,为什么还要买你的课?这个问题很现实。但你真的能用豆包坚持学英语吗?这可能是一个伪命题。当然我不是说豆包的体验不好,我们背后也用了很多豆包的技术。
我们做过大量的调研,从用户的角度来看,学习是一件严肃的事情;并且希望能看到效果。所以,如何科学地规划孩子的学习路径,培养他们的学习习惯,这才是关键。
我们现在设计的场景是,学生进入我们的平台后,我们会为他们制定学习计划,并且有真人老师进行督导。AI必须与真人的服务结合,而不是一个单纯的工具就能学好。
我认为,“AI+教育”这个行业必须回归教育的本质。
搜狐科技:在您看来,未来教育的竞争是技术的竞争、资源的竞争,还是生态的竞争?
蔡林:肯定是生态的竞争。虽然说我是一个很资深的老程序员,梦想说用纯技术来去改变一个世界,但我认为单纯的技术肯定是不够的,未来的竞争一定是一个综合的竞争。