就在今日凌晨3 点,阿里开源发布了新推理模型 QwQ-32B,其参数量为 320 亿,但性能足以比肩 6710 亿参数的 DeepSeek-R1 满血版。短短数小时后,讴谛医疗大模型系统已火速完成QwQ-32B推理大模型的集成上线!
千问的推文表示:「这次,我们研究了扩展RL 的方法,并基于我们的 Qwen2.5-32B 取得了一些令人印象深刻的成果。我们发现 RL 训练可以不断提高性能,尤其是在数学和编码任务上,并且我们观察到 RL 的持续扩展可以帮助中型模型实现与巨型 MoE 模型相媲美的性能。欢迎与我们的新模型聊天并向我们提供反馈!」
博客中提到,大规模强化学习(RL)非常具有潜力,在提升模型性能方面可望超越传统的预训练和后训练方法。
近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek-R1 通过整合冷启动数据和多阶段训练,让AI学会了像人类一样抽丝剥茧分析问题,使其能够进行深度思考和复杂推理。
而Qwen团队则探索了大规模强化学习(RL)对大语言模型的智能的提升作用,推理模型 QwQ-32B 便由此而生。
这是一款拥有320 亿参数的模型,其性能可媲美具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1。该团队表示:「这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。」,实现真正的『智力提纯』。
QwQ-32B 中还集成了与 Agent(智能体)相关的能力,使其能够在使用工具的同时进行批判性思考,像人类专家般验证推理逻辑,根据环境反馈调整推理过程。该团队表示:「我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。」
模型效果
QwQ-32B 在一系列基准测试中进行了评估,包括数学推理、编程和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
强化学习
QwQ-32B模型的强化学习技术框架采用分阶段渐进优化策略,其核心设计融合了领域专项优化与通用能力协同训练的交叉验证机制。以下是其技术路径的关键创新点:
1. 分阶段强化学习架构
模型训练分为领域专项强化学习(Domain-Specific RL)和通用能力强化学习(General-Purpose RL)两阶段。
领域专项阶段:优先针对数学推理与代码生成任务,摒弃传统奖励模型,采用结果验证驱动的强化学习范式。数学任务通过动态逻辑校验生成反馈信号,编程任务则依赖代码执行服务器对测试用例的覆盖性评估,实现奖励信号的自动化生成。
通用能力阶段:在领域能力收敛后,引入多目标优化框架,结合通用奖励模型与规则验证器(如文本连贯性、事实一致性等),通过有限步长的强化学习实现通用能力的泛化提升。
此架构通过任务解耦-协同优化策略,避免了单一目标过拟合问题,同时保障了专业能力与通用性能的平衡。
2. 领域专项优化的技术突破
在数学与编程任务中,QwQ-32B创新性地采用动态推理链验证机制:
数学推理:通过逐步分解问题、验证子步骤正确性,构建自洽的推理路径反馈,显著提升复杂问题的解决能力。
代码生成:集成沙盒环境执行与测试用例覆盖率分析,强化模型对边界条件和异常输入的鲁棒性处理能力。
实验表明,该方法在数学推理任务中展现出与人类专家相当的逻辑严谨性,同时在代码生成任务中实现了更高层次的语义理解。
3. 通用能力协同训练机制
在通用强化学习阶段,研究团队设计了混合奖励信号融合策略:
奖励模型:基于大规模人类偏好数据训练,评估生成内容的流畅性、信息量与安全性;
规则验证器:通过正则化约束(如事实知识检索验证、逻辑矛盾检测)过滤低质量输出。
该机制使模型在开放域对话、文学创作等任务中表现出更强的适应性,同时未对已有专业能力产生显著干扰。对比实验显示,QwQ-32B在多项综合基准测试中接近或超越同期国际主流模型。
4. 技术路径的创新性
QwQ-32B的训练框架突破了传统强化学习的局限性:
冷启动优化:通过领域预训练与强化学习的联合初始化,降低了对高质量SFT数据的依赖;
分层奖励设计:将领域专项验证与通用偏好反馈解耦,解决了多目标冲突问题;
可扩展性:该框架可灵活扩展至其他垂直领域(如生物医学、法律文书),为行业大模型训练提供参考范式。
与同期模型(如DeepSeek-R1-Zero、阶跃星辰On-Policy RL模型)相比,QwQ-32B在专业性与通用性均衡度上展现出独特优势,印证了分阶段渐进式训练的有效性。
总结
QwQ-32B通过结果验证驱动的强化学习与多目标协同优化,构建了兼顾深度推理与广度适应的技术体系。其分阶段训练框架为大规模语言模型的领域迁移与能力平衡提供了新的方法论启示。
作为基于埃启智能操作系统的医疗垂直领域Agent平台,讴谛深度融合多模态大模型技术、医学知识图谱与临床诊疗逻辑,构建覆盖医院全场景的智能协作生态,为医生、院长、患者提供全方位赋能。