今天分享的是:2025年OpenAI o3-mini技术报告-OpenAI
报告共计:37页
《2025年OpenAI o3 - mini技术报告》聚焦OpenAI o3 - mini模型,全面阐述其在技术、安全、风险评估等多方面的情况。
- 模型概况:o3 - mini是o系列通过强化学习训练的模型,能进行推理链条思考,在回答问题前会思考推理,可遵循安全规范,在生成不当内容、越狱风险等方面表现良好。它在多种数据集上预训练,数据处理严格过滤,以提升性能和降低风险。
- 测试评估:对o3 - mini多个检查点评估,测试涵盖安全评估、越狱评估、幻觉评估、公平性和偏见评估等多方面。在不允许内容评估中,o3 - mini与GPT - 4o表现类似;越狱评估中,其结果与o1 - mini持平且优于GPT - 4o;幻觉评估里,o3 - mini表现与其他模型相当或更好;公平性和偏见评估上,o3 - mini与o1 - mini性能相近。
- 安全挑战与应对:o3 - mini存在安全挑战,如开发者自定义消息可能导致越狱风险。为此,通过教导模型遵循指令层次结构解决。外部红队测试显示,o3 - mini在成对安全比较中表现与o1相当,优于gpt - 4o;在越狱竞技场中,其平均用户攻击成功率与o1 - mini相当。
- 风险评估与缓解:依据准备框架评估,o3 - mini(预减灾)总体被评为中等风险,在网络安全、化学和生物威胁制造、放射性和核威胁制造、说服、模型自主性等方面有不同风险评级。针对这些风险,采取多种缓解措施,包括预训练缓解、审慎对齐安全技术、加强监测检测、投入安全资源等。
- 多语言表现与结论:o3 - mini在多语言能力方面较o1 - mini有显著提升。总体而言,o3 - mini在能力和安全基准上表现强大,但也带来新风险。OpenAI已确定其为中等风险,并加入保障和缓解措施,通过迭代部署促进AI安全发展。
以下为报告节选内容