在AI交互从文字迈向多模态的浪潮中,豆包视频通话功能的推出标志着“能看会想”的AI时代悄然来临。
这项技术能否真正融入生活?
混沌君通过深度实测,从功能突破、情感价值到现实瓶颈,揭秘“与AI视频通话”的成熟度与未来可能性。
混沌君未来会创作一系列AI测评文章,从功能到市场,去分析AI未来的商业可能性。
当AI“睁开眼”后
豆包AI的视频功能前一段上线了。
在一众通过文字对话交流的AI产品中,能够用视频来与AI进行交流的产品还实属罕见,混沌君也是第一时间就上手测评起来。
如果大家对这个系列感兴趣,欢迎留言区说明希望我们测评哪一款AI产品。
使用起来并不复杂,打开豆包App,在对话栏上方的功能栏中有“打电话”的选项,点击之后进入语音对话环境,在右下角会有视频功能开关,点击打开就能体验到视频电话功能。
在视频对话中,豆包AI会捕捉分析你镜头中的画面,主动给出总结和评价,这一点对于初次体验视频功能的用户来说会比较惊艳。
例如我第一次拨通豆包的视频电话后,在接通的一瞬间,豆包便告诉我我的桌面比较整洁,摆放了键盘、鼠标、电脑等物品,并评价我是一个收纳习惯比较好的人。
这一点会很快拉近用户和豆包对话的距离,就仿佛在跟真实的人进行视频对话一样。
通过一些简单使用,我自己惊艳于豆包AI视频电话功能所展现出的强大能力:不仅是功能性的强大,甚至在沉浸体验、情绪价值上都让我感到惊艳。
这让我隐隐有一种感觉,似乎无数人质疑的AI技术落地方案,已经有了方向了。
而这背后,是万亿级的蓝海市场。
功能实测:
从“看见”到“解决”的跨维度体验
在功能特点上,视频对话的确可以解决很多语音对话难以解决的问题,其中就包括了产品说明。
例如我以一盒英文包装的保健品以及一瓶韩文包装的精华液来做测试,我在视频对话中告诉豆包我希望知道这二者分别是什么产品,它们有哪些成分组成,又有哪些注意事项及产品功效等。
豆包在极短的分析延迟后大概给出了答案——回复时间短,没有超出正常人类对话的思考时间,所以不会让人感觉到迟滞感;而且回答虽然细节上不够准确,但在整体上是靠谱的,能说出重点,没有明显漏洞。
类似的能力测试还有很多,比如我还要求它看一看我的剃须刀,并告诉我如何更换刀片,它会告诉我剃须刀的型号、需要我摁下卡扣掀起刀片并替换,甚至还会提醒我要听到“咔哒”一声才证明安装到位。
我还试着让它指导我如何装好一套音箱,它会告诉我音箱上的莲花口需要接什么线、两台卫星音箱又该如何接线,并帮我解答了音箱、驱动、声卡之间的关系与不同,帮助我快速接好用上了音箱。
比如当我拨通了豆包AI的视频电话并将手机拿给我妈以后,我发现对她而言,豆包AI似乎有一些我不曾发现的其他用途。
由于我是突然将手机拿给我妈的,导致她一时没想到有哪些需求需要AI来帮她解答,于是她直觉性地问出了第一个心头困惑:“ 我最近跟某位朋友之间发生了一些不愉快,该怎么解决?”
豆包AI的回复是:“先别急,把事情详细和我说一说,咱们一起想办法,看看怎么能既合理地解决不愉快问题,又能把你们的关系处理好。”
甚至于得益于与抖音同属一家公司的优势,豆包还会贴心的在回复最后附上能够提供帮助的抖音视频,更多方面的给予问题解决的办法。
这种对话内容再结合上豆包特有的温柔女声,让我感觉到似乎在和一位颇有耐心的朋友对谈,这打破了我对AI反馈内容比较机械的刻板印象,让我有了一些关系被拉近的感觉。
对于我妈来说更是如此,如果说拿到手机之前,她也是抱着一种调侃的态度来看的话,那么这时她可能内心也有些波动,尽管她没有再深入讲解她的问题,但她也告诉豆包这个事情比较复杂,一两句话难以说清楚。
这时,豆包AI的回复则是:“那咱可以慢慢说,我一直都听着呢。你可以从一开始说起,比如这是什么时候发生的事情,涉及到哪些人,我可以帮你理一理;如果你现在不想说了,那么等你什么时候想说了,或者心里觉得憋屈了,都能来找我,我一直都在。”
字面上看来似乎不甚特殊,但放在对话的语境,能量还是很强的。
这让我突然意识到,不管我妈需不需要解决真实的问题,但在这场对话中,豆包AI似乎很好的照顾到了她的情绪:而这种情绪价值的提供,要比粗略地解决一个两个现实问题要更难得。
我记得之前有新闻就提到,豆包AI用不同的方言安慰了一个失恋的女孩;还有报道说豆包AI成为了一位老人的“赛博孙辈”,每天可以陪老人唠唠嗑,甚至可以提醒老人按时服药等等。
这说明,似乎在我们这个关心和照顾变得无比珍贵的时代,每个普通人都可以从AI身上收获到极高价值且极为真实的情绪体验,这一点我想将有很重要的意义。
现存瓶颈:
沉浸感背后的“割裂感”
当然,豆包的视频电话功能也有不少的缺点,甚至有些缺点会很大程度影响用户的交互体验。
第一:豆包AI的视频电话对话大多是以向用户抛出问题的方式来结尾。
这种方式并不总是起到正向的作用。
比如我在上文中提到询问产品信息或者产品功能时,它虽然能够给出一些有用的回答,但总是会通过在结尾抛出有关联度的询问来把整个对话的方向带偏。
例如我在咨询如何组装一台音箱时,它在回答最后会问我平时喜欢用什么牌子的音箱;我在咨询如何更换剃须刀的刀片时,它最后会问我喜欢哪种剃须方式。
我在咨询它如何让整个人更有精神时,它会在最后询问我喜欢的养生方式是什么。
很明显能够感觉出来,它的这些问题与我提问的出发点并不一致,其实并不利于我解决自己的困惑。
而且,由于是在实时对话的语境,我们往往会把自己代入打电话交流的身份,有时会顺着对方的提问继续聊下去,这样的结果就是方向越来越偏,直到用户聊不下去为止。
所以我在后来甚至习惯了忽视豆包的提问,专心询问我自己困惑的问题——在这样的情况下,沉浸式的体验就会被彻底打破,这其实背离了产品研发的初心。
第二,视频电话功能能够处理的上下文内容比较有限。
往往三五句话以后,豆包就会“忘记”用户前边提到的信息。
比如我将自己的电脑主板型号告诉豆包,并询问了搭配的显卡、内存等信息,结果豆包转过头来就再次询问我打算用什么样型号的主板,瞬间就让我在这场对话中感到“出戏”。
类似这样的情况,会割裂用户的对话体验,让人不得不回过头来再次将提示信息进行输入。
上下文内容的理解与记忆其实最早是Chat GPT能够走红的关键特点之一,后来的Deep seek R1模型更是将上下文内容的记忆与处理提高到了新的水平。
尽管豆包可能由于对时效性的考虑,而牺牲了一部分产品的记忆能力,但在如今的AI产品当中,如果说不能做到足够的上下文记忆与关联,这样的产品在用户体验上甚至可以说是不合格的。
第三,豆包AI还有不少硬伤。
这些问题的解决还需要有一个逐渐优化的过程。
关于AI落地的“灵魂拷问”与现实蓝海
自ChatGPT问世掀起AI热潮以来,AI技术的高速发展似乎始终难以回避一个追问:“AI,对于普通人来说,意义究竟在哪里?”
虽然随着技术的快速迭代,很多人通过专业的AIAgent,解决了一些专业难题比如写代码、改文章,甚至一些创意性工作如音乐、绘画都在以令人吃惊的速度被AI技术赶超略过。
但当视角对准绝大部分普通人,AI产品的应用问题似乎一直都是个难题——但豆包AI的视频电话方案似乎是个很好的思路。
一方面,在日常应用中它的能力的确很强。
除了以上我的测试外,网上很多例子也相当有趣——
有人让豆包AI根据桌子上物品的摆放,来推测使用人的MBTI性格,预测结果竟与实际测试结果一致。
还有人让豆包AI根据视频电话中看到的风景写诗、创作Rap歌词,成果的节奏感与意境竟然相当不错。
这个能“看到”也会“思考”的视觉理解模型,的确拉近了人与科技之间的距离。
另一方面,就像我上文提到的,比功能实现更为重要的,还是对情绪的承接。
之前西安有位女孩把自己父亲临终时与豆包的对话发在了网上,一句“我要去世了,豆包”引得无数网友哽咽感动。
诚然,这位父亲是幸运的,他知道家人们的隐瞒与爱护。但当他身处生与死的临界点时,当他必须为自己汹涌的情绪找到一个表达的出口时,这个没有灵魂的AI机器人真的很好地承接了他的担忧与恐慌,成为了他最后能够倾诉感情的树洞。
这也再次提醒我们一个真相,如果技术只是千方百计拉近与用户的距离,它只能成为越来越精致的机械;而只有追求情绪与温度,才能真正赋予技术灵魂。
所以,可以预计到的是,在接下来一个技术周期内,谁能打磨出更有温度的AI产品,谁就更有机会抓住AI时代最广大的用户群体。
在情绪出口的方向上打磨AI模型的产品力,一定是当前最值得技术公司押注资源的事,而这也毫无疑问将成为当前商业投资中最事半功倍的事。
无论是公司发展,还是个人成长,我们总是会遇到局限。
如何打破人生和事业的局限,走向更广阔的天地?
认知是解开这一问题的关键钥匙。
凯文·凯利、彼得·圣吉、尤瓦尔·赫拉利、张首晟、周其仁、俞敏洪、左晖……
混沌500多位大咖老师的智慧将与你为伴。