AIxiv专栏是机器之心发布学术、本事内容的栏目。畴昔数年,机器之心AIxiv专栏接管报说念了2000多篇内容,粉饰群众各大高校与企业的顶级实验室,灵验促进了学术疏通与传播。若是您有优秀的责任念念要共享,迎接投稿或者关系报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
近日,上海 AI Lab 具身智能中心议论团队在机器东说念主递次范畴得回了最新冲破,建议的 HoST(Humanoid Standing-up Control)算法,得胜让东说念主形机器东说念主在多种复杂环境中终显明自主站起,并展现出浩大的抗搅扰智商。
这一翻新不仅料理了机器东说念主从坐姿到站姿的诊疗难题,还为将来东说念主形机器东说念主在家庭、医疗、赈济等场景中的鄙俗诓骗奠定了基础。
通过强化学习框架和多项本事优化,HoST 算法在仿真和真实环境中均弘扬出色,为东说念主形机器东说念主应付骨子环境中的失衡复原、动态均衡等挑战提供了翻新料理决议,进一步鼓吹具身智能本事的实用化进度。
通达新闻客户端 普及3倍通达度起猛了,东说念主形机器东说念主竟在上海黄浦江畔深渊坐起看日出?
通达新闻客户端 普及3倍通达度也能像牛顿相同坐在「苹果树」旁,起身望望天上掉下了啥。
通达新闻客户端 普及3倍通达度在负重、强搅扰情况下,也能自由起身。
通达新闻客户端 普及3倍通达度模样主页:https://taohuang13.github.io/humanoid-standingup.github.io/
论文地址:https://arxiv.org/abs/2502.08378
设念念东说念主形机器东说念主能否作念到:从沙发上站起,走向桌子,提起一杯咖啡。尽管最近的责任赋予了它们浩大的指点和操作智商,关联词沙发上站起这一圭臬,相对而言艰辛了议论。
大多量工乌有设机器东说念主从一个预界说好的耸立姿势出手,推行后续任务。议论者合计,学会东说念主形机器东说念主站登递次大略应付上述坐立姿态诊疗,或是跌倒后站起等场景,有助于进一步普及东说念主形机器东说念主的落地场景。
和此前依赖于预界说轨迹或是暴戾真机硬件放胆的递次算法不同,HoST 的议论团队建议了一套从零出手、不依赖预定于轨迹的强化学习框架,大略在仿真环境中学会从多种姿势下得胜站起,而况大略径直部署到真实机器东说念主上。
中枢本事
HoST 算法框架
奖励函数假想与计谋优化
不同于行走与操作,站起这一递次任务动态性更强,对高下半身的动态性要求更高。终点的,关于强化学习算法而言,需要克服随时分变化的往返点、多阶段妙技学习、精准的身段角动量递次,无疑对奖励函数的假想与计谋优化带来了极大的繁难。
为此,议论者们假想了多种奖励函数,并将其归类到了四种奖励组:任务奖励、格调奖励、拘谨奖励与后任务奖励。
为了能更好的均衡各个奖励函数,议论者们紧接着经受了多辩论家本事,对每一个奖励函数组分离进行陈述筹画,并对每个奖励函数组赋予不同权重,股票配资几倍杠杆最好来最终优化递次计谋。
探索计谋
即使有了合理的奖励函数假想,议论者们依旧不雅测到了强化学习在探索上遭受的繁难。
议论团队从科学家对婴儿的议论中发现,外界的匡助有助于婴儿学习很多当作妙技。受此启发,议论者们假想了基于课程的支持力探索计谋。
在检修初期,基于机器东说念主特等的朝上的支持力,匡助其更容易的站起,探索到高质地的学习样本。跟着机器东说念主徐徐掌持站起智商,这一支持力会徐徐减小至零,使得机器东说念主最终学习到无支持力匡助下的站登递次。这一假想极大的加速了学习恶果。
指点拘谨
议论者们不雅测到机器东说念主容易学到剧烈的站起计谋,为了克服这一问题,他们引入了当作缩放通盘(当作界限),该缩放通盘决定了 PD 递次器中的所在要害角与面前要害角的最大偏差,从而隐式的拘谨要害最大的力矩与速率该缩放通盘运转被建造为 1。跟着学习的进行,该缩放通盘渐渐削弱至 0.25。
此外,议论者们还不雅测到了站起经过中的行径抖动。为了幸免这个问题,他们在值函数网络和计谋网络优化时经受了平滑拘谨步履(L2C2)。
真机计谋转移
为了模拟真实寰宇中可能见到的运转姿势,议论者们在仿真检修中假想了四种地形:深渊、平台、陡坡和靠墙,以模拟真实寰宇中常见到的环境。
另外,为了减小物理仿真与执行中的物理参数互异,议论者们还经受了域立时化(domain randomization)的本事,在仿真中赐与某些物理参数一些立时噪声,举例质心的偏移、base 重力等。
实验评估
仿真环境站起当作质地
为了更好的评估站起当作,议论东说念主员领先建议了四个量化假想:得胜率、双脚挪动距离、当作平滑度和糟践能量。基于此,他们领先对 HoST 与其消融版块在仿真中进行了相比。扫尾如下表泄漏,多辩论家、支持力探索、指点拘谨均对计谋学习有着权贵的影响。
举例,机器东说念主在艰辛前两者的情况下,无法在大多量地形上得胜学到站起妙技;艰辛指点拘谨会使得站起当作不够平滑。这些考据了上述本事假想的进军性。
真实环境站起当作质地
接着,议论者们将递次计谋径直部署到机器东说念主 Unitree G1 上,而况在室表里多种场景进行了测试。如下图所示,在多种地形上均终显明得胜站起,包括木质平台、草地、平台、陡坡、靠树、石子路等。
其中,在室内场景下,议论者还对比了平滑拘谨对真机弘扬的影响。如下图所示,平滑拘谨权贵普及了站起当作的平滑度与其得胜率。
鲁棒性测试
在负重、外部冲击力、软质大地破裂物以及立时扭矩丢失等复杂外部搅扰条款下,HoST 已经大略保持领略耸立、从跌倒中马上复原,并守护动态均衡。
© THE END做期货