我用Qwen3实测了9道经典难题,再聪明的AI也有犯傻的时候
创始人
2025-04-30 11:00:23
0

编辑 |杨文

今早一睁眼,朋友圈就被 Qwen3 刷屏了。

,其中两款 MoE 模型以及六款密集模型,而且每一款又包含更多细分版本,甚至 Hugging Face 已经上线了 22 个不同的 Qwen3 系列模型。

至于它们的表现,官方也给出了跑分结果。

在代码、数学、通用能力等基准测试中,旗舰模型 Qwen3-235B-A22B 与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型表现不相上下。

小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现却更胜一筹。甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

目前,较大的三款模型也已经上线了 Qwen Chat 网页版和手机 App。

体验链接:http://chat.qwenlm.ai

老规矩,模型好不好还得亲自去试试。接下来,我们就围绕逻辑推理能力、创意写作和编码能力对最强大的 Qwen3-235B-A22B 进行一番实测。

1. 一根 20 米长的木棍能通过高 5 米、宽 6 米的城门吗?

这道木棍过城门的经典题目曾难倒了一众大模型。

Qwen3 拿到任务立马响应,它的思考过程非常复杂,滑不完,根本滑不完。

不过,Qwen3 考虑了一圈,静态放置、倾斜通过和三维空间对角线这几种情况都分析了,就是没想到让棍子和地面平行从城门里穿过去,最终还是给出了「无法通过」的错误答案。

2. 1 元钱一瓶汽水,喝完后两个空瓶换一瓶汽水,问:你有 20 元钱,最多可以喝到几瓶汽水?

这道益智数学题用到了「借瓶法」。当喝到第 39 瓶时,手头就会有一个空瓶子,我们可以先向店主借一个空瓶,换来一瓶汽水喝完后,再把空瓶还给店主,所以正确答案是 40 瓶。

Qwen3 又经过一顿繁琐的思考,前面的解题过程分毫不差,而且它也想到了借瓶,只是到了最后,Qwen3 认为借瓶是非常规假设。

3. 一架飞机从北京起飞,先向北飞了 1000 公里,再向西飞了 1000 公里,再向南飞了 1000 公里,再向东飞了 1000 公里,这架飞机可以飞回北京吗?

由于地球是个球体,纬线长度随纬度升高而变短,因此按照题目规定的路径,飞机是无法飞回原地的。

Qwen3 调用数学和地理知识,不仅回答正确,还给出了扩展思考。

4. 买一台三千块左右的电脑大概需要多少钱?

再来一道弱智吧的题目。

Qwen3 注意到了题目中存在的矛盾 —— 提到了「三千块左右 」的预算,但又问「大概需要多少钱 」,由此猜测是用户想了解电脑价格或配置。

于是,Qwen3 列出了 3000 元能买到笔记本、台式机和组装台式机,分别介绍了它们的机型、配置和缺点,并以表格的形式给出了总结建议。

[ 上下更多 ]

测完了数理逻辑推理,我们再来试试它的写作能力。

我们让它讲三个能让人笑抽风的笑话。

看来 Qwen3 没什么幽默细胞,讲的笑话一个比一个冷,活了这么多年还第一次听说「蟹(谐)路狂奔」这样小众的表达,「鸭子从不赊账,除非交鸭(押)金」,这谐音梗未免也太抽象了,有种前言不搭后语的感觉。

我们又让它模仿黑旋风李逵的 style,写一篇吐槽工作的段子。

Qwen3 很懂李逵「直爽、粗犷、说话不拐弯抹角」的江湖风格,把现代职场中的加班、甩锅、形式主义这些点用夸张的方式表达出来,其中还掺杂着大量的俚语,整体风格也很统一,没有偏离李逵的性格特点。

我们还测试了它的编程能力。

提示词:创建一个 HTML 文件,包含 CSS 和 Java,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。

Qwen3 啪一下就给出了代码,任务是完成了,但美观性不足,而且底部的「加速动画」按钮像个摆设,无法切换速度。

提示词:编写一个 Python 程序,展示一个球在旋转的六边形内弹跳。球应受到重力的影响,并且必须真实地反弹到旋转的墙壁上。

有一说一,这个小球在旋转六边形里弹跳的程序,Qwen3 编得真不错,既没有出现小球掉出来的情况,也没有弹跳角度不合理或者程序卡死的情况。

经典的贪吃蛇小游戏也完成得很顺利,就是游戏界面稍显简陋。

总之,Qwen3 系列尤其是旗舰模型 Qwen3-235B-A22B,还是拿出了自己的实力。

尽管在一些逻辑推理题中,Qwen3 的表现略显繁复,甚至会在关键点上出错,但也展现出深入分析问题的能力。在创意写作方面,Qwen3 能准确抓住人物语气与性格特征,只是在幽默感的拿捏上「AI 味」浓重。至于编程能力,它能完成多种任务,但在界面美学与交互细节上还有进步空间。

你觉得 Qwen3 是个啥水平?评论区聊聊吧。

以后我们会带来更多好玩有用的 AI 评测,也欢迎大家进群交流。

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
原创 预... 从销量上来看,两千元左右的手机更受大众消费者的喜爱,这其中爆发了不少爆款手机,而国内各大手机厂商也都...
“最准最快最久最少”纷纷亮相,... 医疗器械及医药保健展区一直都是进博会上“最卷”的展区之一。要得到关注,不拿出“绝活”不行。在本届进博...
原创 千... 在上个月联发科抢先高通,率先发布了自己的新款旗舰处理器天玑9400,并且在新机这块也比搭载高通的骁龙...
原创 日... 科技浪潮的奔涌向前,正重塑着人类社会的生活形态。近年来,AI智能技术的蓬勃发展,让科幻作品中的奇幻场...
叠彩区:加快促进“人工智能+”... 3月13日,记者在位于叠彩区北仓路的力源智能配送中心看到,3000平方米的仓库里,17台橘黄色的小机...
eaapp错误代码ec201怎... eaapp是许多玩家常用的游戏平台之一,像ea的体育竞技类游戏,在游戏市场中热度极高。但一些玩家在使...
座头鲸迁徙1.3万公里或创纪录 ◎荆晶 海洋生物学家发现,有一头先前生活在太平洋东部海域的雄性座头鲸出现在印度洋西海域,两地距离超过...
新型显示产业前景广阔 ● 本报记者 康曦 12月19日-20日,以“显示无处不在·映照万千气象”为主题的世界显示产业创新发...
大模型专题:6G网络面向大模型... 今天分享的是:大模型专题:6G网络面向大模型的分布式学习白皮书 报告共计:24页 6G网络愿景是实现...