Minimax发布推理模型M1,这是它必须补上的一课
创始人
2025-06-19 03:20:27
0

图片来源:界面图库

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

Minimax也办起了技术发布周。前两日,它在模型和产品上发布了重要更新,包括一款456B参数大小的推理模型M1,以及其核心产品海螺AI。

M1是Minimax姗姗来迟的首款推理模型,不免得要与DeepSeek-R1作比较。其两个最大亮点,一个是长文本处理能力,另一个是成本表现。

Minimax-M1支持最高100万token上下文输入,达到DeepSeek R1的8倍,在闭源模型中与谷歌Gemini 2.5 Pro一致,同时支持最长8万Token的推理输出。

在实际应用中,即用户给到一份100万token大小的阅读材料并提出需求,M1可以正常执行,但如果是不支持如此输入长度的模型,可能只会显示阅读了一定比例内容并执行需求。

Minimax在其技术报告中写道,M1之所以能够实现长文本处理能力突破,主要得益于Lightning Attention(闪电注意力)混合构架。

传统Transformer架构在处理长文本时,其注意力机制主导下的计算量增长为平方级,文本序列越长,计算量越发陡增,这对性能和成本均为挑战。

Lightning Attention的做法是,将全连接注意力拆成两大部分,一个是针对局部上下文整合、采用传统注意力机制的“块内”attention,一个是针对全局摘要、采用线性注意力的“块间”attention。这一方案可以减少大量累积性的计算量,并提高处理速度。

成本方面,其报告提到,在进行8万Token的深度推理时,M1所需的算力为DeepSeek R1的约30%;生成10万token时,推理算力约为DeepSeek R1的25%。团队表示,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本为53.5万美元

在这一点上,Minimax提出了CISPO(Clipped IS-weight Policy Optimization)算法。这是一种高效率、高稳定性的强化学习策略,相比于PPO策略实行token级别的裁剪更新,它通过裁剪重要性采样权重提升强化学习效率,类似“序列级别”裁剪。

这使其更快实现收敛,并达成更少的训练时间和资源消耗。其报告中的实验数据显示,在AIME(AI-powered Moral Evaluator)等测试中,CISPO的收敛性均快于DAPO算法和GRPO算法。

定价方面,M1根据文本大小分为三个价格区间:0-32k Token,输入0.8元/百万Token,输出8元/百万Token;32k-128k Token,输入1.2元/百万Token,输出16元/百万Token;128k-1M Token,输入2.4元/百万Token,输出24元/百万Token。

这是一个总体相对较低的定价,但也同时意味着,随着文本输入与输出的增长,用户的token消耗费用也可能面临陡升。

再说产品,海螺AI加入了全新Hailuo 02模型,视频可原生1080P。Minimax此次强调了它处理极端物理场景的能力,比如说杂技。官方放出来的演示视频也是一段杂技表演。

在AI视频竞技场的排行榜(Artificial Analysis Video Arena Leaderboard)中,Hailuo 02(0616)目前位居第二,仅次于字节旗下视频生成模型Seedance 1.0,超过了谷歌Veo 3 preview以及快手Kling 2.0。

事实上,在此之前,Minimax在一众大模型创业公司中就是一个以多模态能力见长的玩家,为什么在DeepSeek-R1掀起巨浪近半年之后(期间Kimi、智谱、阶跃都有在这方面所更新和发布),它仍要完善推理模型的能力版图?

一名AI大模型投资人对界面新闻记者表示,从时间线上来看,Minimax没有在OpenAI o1模型掀起范式变革后,在国内整体而言相对早的时间点发布一款推理模型,大概率是核心团队起初在决策判断上没有给到这个训练方向足够的重视。“这是团队必须补的一课。”

另有一名接触过Minimax的投资人认为,Minimax现在向市场发布推理模型的重要意义,一是说明在技术上不掉队,二是用“唯一一个支持超长文本”的推理模型建立用户心智。“这对资本市场还是有影响的。”这名投资人表示。

除此以外,他认为此次M1发布即开源,如果模型的效果和口碑能够保持住,也可以让Minimax借机将以前相对短板的开发者社区运营起来。目前,国内更受开发者认可的仍然是通义千问和DeepSeek。

在成本和长文本之外,回到基准测试等基本问题上,MiniMax-M1也有不俗表现。它在AIME 2024、LiveCodeBench、SWE-bench Verified上,略逊色于DeepSeek-R1-0528,不过在TAU-bench上有所赶超。

在体现长文本处理能力的MRCR(4-needle)上,它的确为开发者留下了深刻印象,大幅超越了一众开闭源模型。

图片:Minimax

不过它究竟能够对开源社区产生多大影响还有待观察。在Github上,M1发布8小时后获得440星,截至目前得到了620星。

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
原创 预... 从销量上来看,两千元左右的手机更受大众消费者的喜爱,这其中爆发了不少爆款手机,而国内各大手机厂商也都...
“最准最快最久最少”纷纷亮相,... 医疗器械及医药保健展区一直都是进博会上“最卷”的展区之一。要得到关注,不拿出“绝活”不行。在本届进博...
原创 千... 在上个月联发科抢先高通,率先发布了自己的新款旗舰处理器天玑9400,并且在新机这块也比搭载高通的骁龙...
原创 日... 科技浪潮的奔涌向前,正重塑着人类社会的生活形态。近年来,AI智能技术的蓬勃发展,让科幻作品中的奇幻场...
叠彩区:加快促进“人工智能+”... 3月13日,记者在位于叠彩区北仓路的力源智能配送中心看到,3000平方米的仓库里,17台橘黄色的小机...
eaapp错误代码ec201怎... eaapp是许多玩家常用的游戏平台之一,像ea的体育竞技类游戏,在游戏市场中热度极高。但一些玩家在使...
新型显示产业前景广阔 ● 本报记者 康曦 12月19日-20日,以“显示无处不在·映照万千气象”为主题的世界显示产业创新发...
大模型专题:6G网络面向大模型... 今天分享的是:大模型专题:6G网络面向大模型的分布式学习白皮书 报告共计:24页 6G网络愿景是实现...
努比亚Z70 Ultra星空版... 近日,努比亚手机官方宣布,其最新旗舰机型Z70 Ultra星空典藏版将于2024年11月21日正式发...