全面展现智慧科技硬实力,TCL实业荣获AWE 2025三项大奖奇安信参加华为鲲鹏合作伙伴大会,助力国产化防火墙生态发展亚信科技中标内蒙古大型坑口电站5G专网项目, “5G+”赋能智慧电厂拼多多发布2024四季度及全年财报 陈磊:坚持高质量发展战略不动摇引领显示、智能终端创新,TCL多款新品荣获AWE 2025艾普兰奖破局2025!第二届推客大会暨首届推客大赛颁奖盛典5月27日长沙定档全球首款RGB-Mini LED电视售价27999元起联想摩托罗拉razr 60 Ultra小折叠手机“木纹后盖”版本曝光 引入Edge 50 Ultra设计3月24日打开京东搜「1」 3C数码“疯狂星期一”低价来袭传三星取消SF1.4制程,韩国半导体技术瓶颈与市场困境下艰难求生两部门:人脸信息应当存储于人脸识别设备内,不得通过互联网对外传输雷丁汽车“卷土重来” 预告 A50 短途代步微型车下半年上市海信首发1000nits全屏亮度激光电视探索X1亮相AWE 2025闻泰科技拟出售子公司股权 专注半导体业务发展中国平安2024年报:营收净利双增 核心人员持股计划深化利益绑定苹果折叠iPhone将采用液态金属轴承 宜安科技成主要受益者理想汽车发布新一代自动驾驶技术MindVLA,预计7月与理想i8同步首发得一微即将推出PCIe 5.0固态硬盘主控YS9503不再用Windows/Linux!华为首款鸿蒙PC来了 余承东:鸿蒙要成全球第三大电脑OSReka开源Reka Flash3,能力超Gemma327B 全面展现智慧科技硬实力,TCL实业荣获AWE 2025三项大奖奇安信参加华为鲲鹏合作伙伴大会,助力国产化防火墙生态发展亚信科技中标内蒙古大型坑口电站5G专网项目, “5G+”赋能智慧电厂拼多多发布2024四季度及全年财报 陈磊:坚持高质量发展战略不动摇引领显示、智能终端创新,TCL多款新品荣获AWE 2025艾普兰奖破局2025!第二届推客大会暨首届推客大赛颁奖盛典5月27日长沙定档全球首款RGB-Mini LED电视售价27999元起联想摩托罗拉razr 60 Ultra小折叠手机“木纹后盖”版本曝光 引入Edge 50 Ultra设计3月24日打开京东搜「1」 3C数码“疯狂星期一”低价来袭传三星取消SF1.4制程,韩国半导体技术瓶颈与市场困境下艰难求生两部门:人脸信息应当存储于人脸识别设备内,不得通过互联网对外传输雷丁汽车“卷土重来” 预告 A50 短途代步微型车下半年上市海信首发1000nits全屏亮度激光电视探索X1亮相AWE 2025闻泰科技拟出售子公司股权 专注半导体业务发展中国平安2024年报:营收净利双增 核心人员持股计划深化利益绑定苹果折叠iPhone将采用液态金属轴承 宜安科技成主要受益者理想汽车发布新一代自动驾驶技术MindVLA,预计7月与理想i8同步首发得一微即将推出PCIe 5.0固态硬盘主控YS9503不再用Windows/Linux!华为首款鸿蒙PC来了 余承东:鸿蒙要成全球第三大电脑OSReka开源Reka Flash3,能力超Gemma327B
  • 首页 > 云计算频道 > 大模型

    感谢 DeepSeek:Predibase 发布全球首个端到端强化微调平台并开源,支持无服务器和端到端训练方法

    2025年03月20日 14:23:01   来源:IT之家

      昨日晚间,大模型训练、开发平台 Predibase 发布了一个完全托管、无服务器、端到端的强化微调平台,也是首个端到端强化微调(RFT)平台。

      Predibase 表示,DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响,让很多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这个端到端无服务器强化微调平台。

      与传统的监督式微调相比,RFT 不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续地强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

      为了展示 RFT 的强大,Predibase 基于阿里 Qwen2.5-Coder-32B-instruct 微调了一个专门用于将 PyTorch 代码翻译为 Triton 的模型 Predibase-T2T-32B-RFT,并根据其他更大的基础模型(包括 DeepSeek-R1、Claude 3.7 Sonnet 和 OpenAI o1)对内核正确性进行了基准测试。

      与传统的监督式微调方法不同,Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为,以最少的标记数据优化下游任务质量。这使其成为专有 LLM 的高性价比、高性能替代方案。

      通过 RFT,Predibase 在训练过程结合了冷启动监督式微调、强化学习和课程学习,并且只使用了十几个标记数据点。

      在 Kernelbench 数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct 经过强化后,其正确率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍,比 Claude 3.7 Sonnet 高出 4 倍以上,而模型占用的空间却小了一个数量级。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。