糖心vlog是啥?:糖心又又酱新年制作视频-Minimax发布推理模型M1,这是它必须补上的一课

频道:商业 日期: 浏览:1

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

Minimax也办起了技术发布周。前两日,它在模型和产品上发布了重要更新,包括一款456B参数大小的推理模型M1,以及其核心产品海螺AI。

M1是Minimax姗姗来迟的首款推理模型,不免得要与DeepSeek-R1作比较。其两个最大亮点,一个是长文本处理能力,另一个是成本表现。

Minimax-M1支持最高100万token上下文输入,达到DeepSeek R1的8倍,在闭源模型中与谷歌Gemini 2.5 Pro一致,同时支持最长8万Token的推理输出。

在实际应用中,即用户给到一份100万token大小的阅读材料并提出需求,M1可以正常执行,但如果是不支持如此输入长度的模型,可能只会显示阅读了一定比例内容并执行需求。

Minimax在其技术报告中写道,M1之所以能够实现长文本处理能力突破,主要得益于Lightning Attention(闪电注意力)混合构架。

传统Transformer架构在处理长文本时,其注意力机制主导下的计算量增长为平方级,文本序列越长,计算量越发陡增,这对性能和成本均为挑战。

Lightning Attention的做法是,将全连接注意力拆成两大部分,一个是针对局部上下文整合、采用传统注意力机制的“块内”attention,一个是针对全局摘要、采用线性注意力的“块间”attention。这一方案可以减少大量累积性的计算量,并提高处理速度。

成本方面,其报告提到,在进行8万Token的深度推理时,M1所需的算力为DeepSeek R1的约30%;生成10万token时,推理算力约为DeepSeek R1的25%。团队表示,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本为53.5万美元 

在这一点上,Minimax提出了CISPO(Clipped IS-weight Policy Optimization)算法。这是一种高效率、高稳定性的强化学习策略,相比于PPO策略实行token级别的裁剪更新,它通过裁剪重要性采样权重提升强化学习效率,类似“序列级别”裁剪。

这使其更快实现收敛,并达成更少的训练时间和资源消耗。其报告中的实验数据显示,在AIME(AI-powered Moral Evaluator)等测试中,CISPO的收敛性均快于DAPO算法和GRPO算法。

定价方面,M1根据文本大小分为三个价格区间:0-32k Token,输入0.8元/百万Token,输出8元/百万Token;32k-128k Token,输入1.2元/百万Token,输出16元/百万Token;128k-1M Token,输入2.4元/百万Token,输出24元/百万Token。 

这是一个总体相对较低的定价,但也同时意味着,随着文本输入与输出的增长,用户的token消耗费用也可能面临陡升。

再说产品,海螺AI加入了全新Hailuo 02模型,视频可原生1080P。Minimax此次强调了它处理极端物理场景的能力,比如说杂技。官方放出来的演示视频也是一段杂技表演。

在AI视频竞技场的排行榜(Artificial Analysis Video Arena Leaderboard)中,Hailuo 02(0616)目前位居第二,仅次于字节旗下视频生成模型Seedance 1.0,超过了谷歌Veo 3 preview以及快手Kling 2.0。 

事实上,在此之前,Minimax在一众大模型创业公司中就是一个以多模态能力见长的玩家,为什么在DeepSeek-R1掀起巨浪近半年之后(期间Kimi、智谱、阶跃都有在这方面所更新和发布),它仍要完善推理模型的能力版图?

一名AI大模型投资人对界面新闻记者表示,从时间线上来看,Minimax没有在OpenAI o1模型掀起范式变革后,在国内整体而言相对早的时间点发布一款推理模型,大概率是核心团队起初在决策判断上没有给到这个训练方向足够的重视。“这是团队必须补的一课。”

另有一名接触过Minimax的投资人认为,Minimax现在向市场发布推理模型的重要意义,一是说明在技术上不掉队,二是用“唯一一个支持超长文本”的推理模型建立用户心智。“这对资本市场还是有影响的。”这名投资人表示。

除此以外,他认为此次M1发布即开源,如果模型的效果和口碑能够保持住,也可以让Minimax借机将以前相对短板的开发者社区运营起来。目前,国内更受开发者认可的仍然是通义千问和DeepSeek。

在成本和长文本之外,回到基准测试等基本问题上,MiniMax-M1也有不俗表现。它在AIME 2024、LiveCodeBench、SWE-bench Verified上,略逊色于DeepSeek-R1-0528,不过在TAU-bench上有所赶超。

在体现长文本处理能力的MRCR(4-needle)上,它的确为开发者留下了深刻印象,大幅超越了一众开闭源模型。

图片:Minimax

不过它究竟能够对开源社区产生多大影响还有待观察。在Github上,M1发布8小时后获得440星,截至目前得到了620星。