昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试
其中,我们开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。这也为推理模型在轻量级设备上部署提供了可能性。
同时,我们也将开源两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。
对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。
那么,之前大模型经常翻车的比大小问题,Skywork o1现在的回答水平如何了?
令人惊喜的是,Skywork o1不但没有被问题绕进去,还分析的头头是道,甚至透露出“大智慧”,引申出了一些更底层的思考。
进阶版的复杂人类思考能力的解锁也将进一步在垂类领域增强大模型的应用,例如:
中英文常见逻辑推理和复杂任务,如数学/代码类任务,科学研究
高质量内容生成,如创意写作,行业报告写作
深度搜索,解锁复杂搜索任务的拆解
2024年以来,昆仑万维天工AI持续进化,陆续发布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式发布的「天工大模型4.0」 o1版(Skywork o1),不仅是我们贯彻“All in AGI 与 AIGC” 战略的重要举措,更是我们构建AI技术栈的重要一步。我们将秉持“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。
测试地址
「天工大模型4.0」 o1版(Skywork o1)开启测试
尝鲜地址:www.tiangong.cn