你的位置:开云app登录入口 > 开云篮球 >

开云app 阶跃新模型快到“没推理”!印奇上任,果然气势一新

开云app 阶跃新模型快到“没推理”!印奇上任,果然气势一新

春节档果然热闹!

{jz:field.toptypename/}

印奇上任后,阶跃星辰也气势一新了。

正式发布新一代开源 Agent 基座模型Step 3.5 Flash,总参数 196B,激活参数 11B,支持 256K 上下文窗口。

生态层面,依旧走软硬结合的技术路线,优化模型本身的同时,兼容适配主流算力硬件。

目前,Step 3.5 Flash 已经和昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥多家芯片厂商完成适配,覆盖了当前主流的国产 AI 加速芯片平台。

官方数据称新模型的推理峰值达350TPS,在 Agent 场景和数学任务上媲美闭源模型,能胜任复杂、长链条任务。

被 AI "秒回"了

先来看波成绩单。

官方公布了 Step 3.5 Flash 在推理、编码、智能体三大核心场景的基准测试对比图(阴影条表示使用并行思考增强的 Step 3.5 Flash 的性能)。

新模型在推理类测试排名均在前列,其中 AIME 2025 基准测试中得分 97.3;

编码任务的 SWE-bench Verified 测试中达到 74.4%,与国外闭源模型相比仍有小幅距离;

智能体任务的 τ² -Bench 测试中取得 88.2 的分数。

接下来实测走起!

请在不使用外部工具的情况下,依次计算并列出以下算式的结果:首项为 80、公差为 4 的等差数列前 30 项和;1 ² +2 ² + … +10 ² 的平方和;2!++4!+6!+8!+10! 的和;√ 169+ ∛ 216+ ⁵√ 32 的和。

好家伙,推理速度是"肉眼几乎不可见"的快,秒回的答案也准确。

看图计算也来试一试:

(上传图片)计算

虽然答案没错,但尝试了国内外多个模型之后发现,只有 Step 3.5 Flash 没把答案合并同类项到最终形式……

接下来看编程场景,让 Step 3.5 Flash 开发一个模拟医疗资源监控系统。

开发一个医疗资源监控仪表盘,使用 WebGL 渲染 3D 院区场景。各科室、急诊、手术室设置发光点位,点击后放大区域并展示半透明数据层,包含床位、接诊量、设备利用率图表。数据通过 WebSocket 实时更新,网络异常使用缓存。

系统完成初始化加载后,左上角会实时展示当前运行状态,清晰标注系统的在线情况、最新数据更新时间和连接状态(模拟)。

右上角则还原了医院各类医疗设备的在线率、负载状态与运行情况,设备总揽面板非常直观。

界面核心区域作为主可视化大屏,集中呈现全院各科室的实时忙碌程度、医护资源利用趋势与业务流量变化。

同时对床位占用、关键设备运行状态进行全天候实时监控,一旦出现资源紧张或超负荷情况,会自动触发繁忙预警与高亮提示。

点击左侧导航栏中的不同科室选项,可以展开对应科室的详细运营数据与业务指标,界面会自动切换至专属科室视图。

当光标悬浮在科室床位分布的饼状图上时,还会实时弹出浮动提示框,清晰展示床位占用、空闲、预留等细分数据。

如果仔细观察背景的院区布局图层就会发现,每点击一个科室选项,场景都会自动平滑滑动,将镜头定位到对应科室的物理位置上。

再来一个飞行员气象仪表盘:

制作一个艺术化气象仪表盘,使用 WebGL 渲染 3D 真实地球。各国主要城市显示发光标记点,开云点击后镜头平滑放大到对应区域,并切换为半透明 2D 叠加层,展示该地区的详细气象图表。数据通过 WebSocket 实时流式传输,网络异常时自动降级使用缓存快照,保证界面稳定运行。

可视化交互的效果不错,但有个问题是这个模型不能直接预览或者给出预览网址,生成代码后还得手动粘贴保存文件才能查看。

除了推理和编程场景,端云协同也是 Step 3.5 Flash 重点打造的实用能力,核心思路是云端负责烧脑的规划与推理,端侧负责安全的数据读取与本地执行。

在官方的电商比价演示中,面对用户"对比 Mac Mini M4 各平台价格"的需求,Step 3.5 Flash 化身云端大脑,直接将复杂的比价任务,拆解为分别查询淘宝、京东、拼多多的独立小任务。

云端提前做好任务规划后,本地的 Step-GUI 就无需复杂思考,只需要专注完成数据抓取工作。

最后由云端统一汇总所有价格信息,快速比对后为用户生成清晰的购买参考。

已加速

主打一个数据不出本地、隐私不上云。

模型架构

架构层面,Step 3.5 Flash 采用的是 MoE 稀疏混合专家架构。

总参数量达到 196B,但在实际推理过程中,每个 Token 仅激活约 11B 参数。在保证模型能力的同时,通过稀疏激活有效控制了计算与部署成本。

针对长上下文优化,模型使用3:1 滑动窗口注意力与全注意力交错的方案,缓解了传统长文本模型的失忆问题。

{jz:field.toptypename/}

此外,研发团队将 SWA 层的查询头数从 64 增加到 96,在不扩大 KV 缓存占用的情况下增强了模型的表征能力。

为了确保数值稳定性,模型还集成了头向门控注意力,通过动态调节信息流向来维持推理过程的稳定性。

在推理效率上,Step 3.5 Flash 采用了3 路多 Token 预测(MTP-3)技术,允许模型在主输出的同时并行预测未来的多个 token,并通过并行验证机制在单次处理中校验多个 token 假设。

这种方式使其在 NVIDIA Hopper GPU 上的单流编程任务中,推理峰值达到 350TPS。

为了强化模型推理与智能体执行能力,Step 3.5 Flash 还搭载了自研的MIS ‑ PO强化学习框架。

用更严格的样本过滤机制替代了传统的重要性加权计算,有效减少了数据噪声与梯度方差,让模型在长序列任务上的优化更稳定;即便在大规模离线训练的环境中,依然能保持可靠的输出。

此外,据官方透露,Step 4 也正在训练中。

参考链接:https://static.stepfun.com/blog/step-3.5-flash/

—  欢迎 AI 产品从业者共建  —

� �「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 � � 点亮星标

科技前沿进展每日见





Copyright © 1998-2026 开云app登录入口™版权所有

lijingshb.com 备案号 备案号: 京ICP备2026011999号-10

技术支持:®开云app RSS地图 HTML地图