毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 云计算频道 > 大模型

    机器人也不怕被忽悠瘸了(doge)

    2023年08月07日 10:29:29   来源:量子位

      丰色 发自 凹非寺

      量子位 | 公众号 QbitAI

      四足机器人走着走着突然断了一条腿,还能继续前进吗?

      来自谷歌和密歇根大学的最新成果,给出了非常肯定的答案。

      他们发明的一种叫做AutoRobotics-Zero(ARZ)的搜索算法,既不靠大模型,也不用神经网络,可以让机器人一旦遇到剧烈的环境变化,就立刻自动更改行动策略。

      譬如断腿照样走:

      相比之下,别的神经网络方法还是这样婶儿的(手动狗头):

      英伟达AI科学家Jim Fan评价:

      这个方法非常令人耳目一新。

      机器人再也不怕被忽悠瘸了

      具体如何实现?

      让机器人断腿继续走的秘密

      快速适应环境变化是机器人部署到现实世界中非常重要的一项技能。

      但目前常用的循环神经网络(RNN)技术存在策略单一、重参数化导致推理时间长、可解释性差等问题。

      为此,作者直接“另起炉灶”,基于AutoML Zero技术开发了这项全新的四足机器人环境自适应策略:AutoRobotics-Zero(ARZ)。

      关于AutoML Zero,不熟悉的朋友再了解一下:

      它是2020年诞生的一种“从零开始的自动机器学习”算法,出自谷歌大脑Quoc V.Le大神等人之手,仅使用基本数学运算为基础,它就能从一段空程序开始,自动发现解决机器学习任务的计算机程序。

      在此,作者也将各种机器人行动策略表示为程序,而非神经网络,并仅使用基本的数学运算作为构建块,从头开始演化出可适应性策略及其初始参数。

      随着不断的进化,该方法能够发现控制程序(即Python代码,如下图所示),从而在与环境互动的同时,利用感觉运动经验来微调策略参数或改变控制逻辑(也就是当随机分支在随机时间突然中断时运行新的分支)。最终就可以在不断变化的环境下实现自适应。

      具体而言,ARZ的算法由两个核心函数组成:StartEpisode()和GetAction(),前者在机器人与环境交互的每个阶段开始时就开始运行,后者负责调整内存状态(因为策略被表示为作用于虚拟内存的线性寄存器)和代码修改。

      在进化搜索上,ARZ则采用两种控制算法:负责多目标搜索的非支配排序遗传算法II(NSGA-II)和负责单目标搜索的正则化进化算法(RegEvo)。

      如下图所示进化控制算法的评估过程,单目标进化搜索使用平均情节奖励作为算法的适应度,而多目标搜索优化了两个适应度指标:平均奖励(第一个返回值)和每次episode的平均步数(第二个返回值)。

      以及作者介绍,为了预测动态环境中给定情况下的最佳行动,策略必须能够将当前情况与过去的情况和行动进行比较。

      因此,ARZ所有策略都被设计为“有状态的”,即内存内容在一个事件的时间步长内是持续存在的,由此才得以完成自适应。

      此外,有所不同的是,该方法还去掉了原始AutoML Zero技术中的监督学习模式,最终无需明确接收任何监督输入(如奖励信号)就可以让进化程序在整个生命周期内进行调整。

      比神经网络更有效

      作者用宇树科技的“莱卡狗”(Laikago)四足机器人模拟器在模拟环境中进行了效果测试。

      最终,只有ARZ可以进化出在随机断腿情况下保持向前运动和避免摔倒的自适应策略。

      相比之下,进行了全面超参数调整并使用最先进强化学习方法完成训练的MLP和LSTM基线都失败了:

      要么不具有鲁棒性,不能每次都成功;

      要么一次都没有成功过。

      需要注意的,这还是在ARZ使用的参数和FLOPS比MLP和LSTM都少得多的情况下。

      下图则是统计数据:只要任何一列中的reward<400就表示该腿的大多数测试都以摔倒告终。

      我们可以再次看到,除了ARZ,只有MLP方法能够在右后腿成功一次。

      除了以上这些,ARZ还显现出了目前的RNN技术都做不到的可解释性

      如图所示,它在断腿案例中发现的各种策略可以都符号化为如下表示:

      最后,除了机器人断腿走路,ARZ还可以在“具有随机倾斜轨道的cartpole系统”中自动保持平衡。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。