“在未来2到5年ღ◈◈,最重要的一件事还是端到端的具身智能AI模型ღ◈◈。”宇树科技CEO王兴兴在2025世界机器人大会上谈及对机器人产业未来的看法时如是表示ღ◈◈。
过去一段时间ღ◈◈,机器人业界和投资界对数据问题的关注度非常高ღ◈◈,有OpenAI珠玉在前ღ◈◈,大力可以出奇迹ღ◈◈,只要真实数据足够多ღ◈◈,就可以训练出真正聪明的具身智能ღ◈◈。某种程度上ღ◈◈,这也是近期各地机器人数采中心雨后春笋般纷纷冒出来的重要原因ღ◈◈。
首先ღ◈◈,王兴兴认为ღ◈◈,机器人硬件性能虽然还不够好ღ◈◈,但目前是够用的ღ◈◈,“目前最大的挑战还是具身智能的AI还是完全不够用ღ◈◈。这也是限制人形机器大规模应用的一个最大点ღ◈◈。”
在他看来ღ◈◈,当前这个时点有点像ChatGPT出来之前的1到3年ღ◈◈,用他的话来说就是“目前整个业界大家已经发现了类似的方向以及技术路线ღ◈◈,但是没人把它做出来”ღ◈◈。
其次ღ◈◈,目前具身智能没有达到理想效果ღ◈◈,到底是模型的问题还是数据的问题?王兴兴的答案很直接ღ◈◈,“目前全球范围内ღ◈◈,大家对机器人数据这个问题关注度有点太高了ღ◈◈。”
在他看来ღ◈◈,现在最大的问题是反而是模型的问题ღ◈◈,并不是数据问题ღ◈◈。因为目前就具身智能和机器人而言ღ◈◈,模型架构都不够好太阳成官网ღ◈◈,也不够统一ღ◈◈。导致大家对模型反而关注的有点少ღ◈◈,对数据的问题关注很多ღ◈◈。
“我个人感觉ღ◈◈,包括我们公司目前尝试下来ღ◈◈,VLA+RL还是不够的ღ◈◈,这个模型架构还是得再升级和优化ღ◈◈。”王兴兴认为ღ◈◈,“用视频生成模型去做训练ღ◈◈,可能比VLA模型收敛的概率还更大ღ◈◈。”
大家好ღ◈◈,非常荣幸在此做一个分享ღ◈◈。我是宇数科技创始人王兴兴ღ◈◈。我们公司2016年成立ღ◈◈,到现在有九年时间ღ◈◈,也比较长了ღ◈◈。我们最早是做高性能四足机器人ღ◈◈,最近几年也做高性能的人形机器人ღ◈◈。目前产品的布局还是相对比较多的ღ◈◈,各型号都会比较多一些ღ◈◈。
简单介绍一下ღ◈◈,最早是在2013年到2015年左右ღ◈◈,我在读书期间做的XDog这款机器ღ◈◈。基本上开创了全球范围内这种低成本ღ◈◈、高性能四足机器人技术方案的先河ღ◈◈。简单说ღ◈◈,就是在我当时做这个技术方案之前ღ◈◈,大部分的业界(包括很多学校)大家做的这种机器人ღ◈◈,都是采用了工业电机和工业伺服驱动器ღ◈◈,成本非常高ღ◈◈。而且尺寸也非常大ღ◈◈,非常不好用ღ◈◈。
2013年我想到这个方案的时候ღ◈◈,甚至想过要不要辍学去创业ღ◈◈。因为大家也知道ღ◈◈,辍学创业还是非常时尚的一个概念ღ◈◈。我当时想了想太阳成官网ღ◈◈,在那个时候ღ◈◈,其实是不现实的一件事情ღ◈◈。因为只是有个想法ღ◈◈,没有把东西做出来ღ◈◈,也没有别的一些资源ღ◈◈。
在2013年到2015ღ◈◈、2016年ღ◈◈,是把这个机器人给做出来了ღ◈◈。而且这个机器人ღ◈◈,大家可能想象不到ღ◈◈,当时的整个研发投入大概只有1到2万元人民币ღ◈◈。在2015年的时候ღ◈◈,我还用这台机器人去参加了一个上海的比赛ღ◈◈,获得了总分的二等奖ღ◈◈,赚了8万元奖金ღ◈◈。所以这款机器也算是我赚的第一桶金ღ◈◈。在我们我公司2016年成立的时候ღ◈◈,最早这部分钱就这是这么来的ღ◈◈。
这也是比较有代表性的一个机器ღ◈◈,包括现在很多人形机器人用的很多技术方案ღ◈◈,跟这个技术方案也非常类似ღ◈◈。另外ღ◈◈,我们公司的四足机器人主机主要是有三款ღ◈◈。一款是比较小的ღ◈◈,像GO2ღ◈◈,这款机器人在2023年发布的时候ღ◈◈,就集成了大语言模型ღ◈◈,功能非常健全ღ◈◈。标配了3D激光雷达ღ◈◈、语言模型ღ◈◈,还有各种小的功能ღ◈◈。目前这款机器也是过去几年(包括今年)ღ◈◈,应该全球范围内ღ◈◈,四足机器人机器出货量最多的一款机器狗ღ◈◈。
此外ღ◈◈,我们的B2这款机器人ღ◈◈,主要是工业应用的ღ◈◈。因为我们还是希望机器人真正去干活ღ◈◈,包括工业场景等各种场景ღ◈◈。所以这款机器人ღ◈◈,持续扩展能力和续航能力ღ◈◈,到现在为止都非常强劲ღ◈◈。
对于我们人形机器人ღ◈◈,我在很多场合也说过ღ◈◈,我们公司早些年ღ◈◈,我一直是坚决反对做人形机器人的ღ◈◈。为什么呢?因为当时在2009年ღ◈◈,我在读大一的时候ღ◈◈,做的第一款机器人就是一个小的双足人形机器人ღ◈◈,花了两百多元人民币ღ◈◈。
当时我就发现ღ◈◈,那个时候你要去做人形机器人ღ◈◈,他的商业价值或者技术是非常难做的ღ◈◈。所以ღ◈◈,我们公司成立很多年ღ◈◈,一直是反对做人形机器人ღ◈◈。
但是后来在2021年到2022年ღ◈◈,全球人工智能发展非常迅速ღ◈◈。尤其以ChatGPT那个时刻为代表的蜜芽tv.2722跳在线观看网站ღ◈◈,就是整个AI的技术进步非常显著ღ◈◈。
并且像马斯克为代表的尖端企业(等产业界)ღ◈◈,对这个领域关注度非常高ღ◈◈,带动了全球范围内的大众ღ◈◈,对人形机器人关注非常高ღ◈◈。
说得再直接一点ღ◈◈,大家可能想象不到ღ◈◈,在2022年的时候ღ◈◈,我们公司完全没有开始做人形机器人ღ◈◈。但是有很多客户直接找我们下订单ღ◈◈。就是我们啥都没有ღ◈◈,但是有客户愿意直接给我们钱ღ◈◈,付定金下订单给我们ღ◈◈。所以这直接导致我们在2023年初就开始做人形机器人ღ◈◈。
(H1)这款机器人就是我们2023年初花了半年多时间做的第一款人力机器人蜜芽tv.2722跳在线观看网站ღ◈◈。因为这款机器人是我们公司做的第一代ღ◈◈,所以外观上可能相对粗陋一点ღ◈◈。但它的动力性能到现在为止都非常强劲ღ◈◈。上春晚的也是这款机器人ღ◈◈。而且下个礼拜ღ◈◈,我们在北京有个机器人比赛ღ◈◈,我们这款机器人也会上场ღ◈◈,大家可以关注一下ღ◈◈。
去年我们发布了第二款机器人ღ◈◈,就是G1这款机器人ღ◈◈。这款机器人到现在ღ◈◈,也非常具有代表性ღ◈◈,它代表些什么东西呢?从去年我们这款机器人发布以后到今年ღ◈◈,大家可以发现很多其他企业的新兴的人形机器人ღ◈◈,都跟我们这款机器人整个架构非常类似ღ◈◈。
这款机器人的动力性能ღ◈◈,包括灵活度非常好ღ◈◈。去年发布的时候ღ◈◈,这款机器人低配价格大概是9.9万元人民币ღ◈◈,非常有竞争力的ღ◈◈。所以ღ◈◈,这款机器人在去年ღ◈◈,包括今年ღ◈◈,应该差不多是全球人形机器领域出货量最多的ღ◈◈。
如果大家平时刷抖音ღ◈◈,刷一些视频号ღ◈◈,大家可以看到ღ◈◈,很多我们的客户自发这些平台上放直播ღ◈◈,基本上每天都有ღ◈◈。
我们前一两周刚发布的一款R1这款新的人形机器人ღ◈◈。最大的特点ღ◈◈,相对来说性价比更高些ღ◈◈,当然也会更小一点ღ◈◈,大概1.2米ღ◈◈,但它的最低配价格做到3.99万元人民币ღ◈◈。
另外一个比较有特点的是ღ◈◈,在它的外观ღ◈◈,我们给客户留了很大的外观定制空间ღ◈◈,大家可以在上面改装或涂装自己喜欢的造型ღ◈◈。
因为大家也知道ღ◈◈,大家还是希望给自己的机器人做一些各种的打扮ღ◈◈,衣服ღ◈◈,各种的一些涂装ღ◈◈,大家还是非常喜欢的ღ◈◈。在我们展位上也有ღ◈◈,大家有兴趣的话可以去看一下ღ◈◈。到目前这个量产还没有搞定ღ◈◈,发货可能还是要比较晚一些ღ◈◈。
另外ღ◈◈,我们前段时间也发布了新一款的四足机器人ღ◈◈。最大特点是自重和负载能力是非常强的ღ◈◈。自重大概只有35千克ღ◈◈。对一个成年男性来说ღ◈◈,完全可以把它搬起来ღ◈◈,还是非常方便的ღ◈◈。但它的负载能力又非常强ღ◈◈,持续负载能力可以达到差不多25到30千克左右ღ◈◈,空载续航可以达到6个多小时ღ◈◈,简单来说ღ◈◈,这个空载续航大概可以达到(行进)20千米ღ◈◈。
我们去年底对轮足做了一些更新ღ◈◈。大家可能会好奇ღ◈◈,为什么我们的轮组会相对来说有了更多的灵活性?其实原因非常简单ღ◈◈,就是我们过去的一两年ღ◈◈,我们在人形机器人上开发了很多些复杂的动作ღ◈◈。我们把这些复杂动作的算法直接用到了我们机器狗上面ღ◈◈。
我们的工业级产品ღ◈◈,在过去几年ღ◈◈,已经在很多的工业领域ღ◈◈,比如电网ღ◈◈、工厂已经有24小时运行ღ◈◈。它有自动充电ღ◈◈,可以自动巡逻ღ◈◈,自动识别一些图像ღ◈◈、气体等ღ◈◈。
这款机器人如果带上轮子的话ღ◈◈,它的自重达到了将近七八十千克ღ◈◈,其实稍微有点重ღ◈◈,也有点大的ღ◈◈。但是在这么大的情况下ღ◈◈,它的灵活性还是非常不错的ღ◈◈。
负载能力也非常强ღ◈◈,能达到可以四五十千克的持续负载能力ღ◈◈。基本上一般性的话ღ◈◈,载个人其实都没问题ღ◈◈。当然有点危险性ღ◈◈,不太推荐大家这么玩ღ◈◈。
很多人以为我们公司一直把机器人当做一些表演ღ◈◈、打格斗之类的(产品)ღ◈◈。其实我们公司还是一直是非常重视让机器人干活这件事情ღ◈◈。我们核心目标还是说让机器人去干活ღ◈◈。包括四足机器人和人形机器人ღ◈◈。
我们也做了很多的数据采集ღ◈◈,数据开源等ღ◈◈,我们的公开仓库ღ◈◈,每隔一两个月都会公开一些算法ღ◈◈,公开一些开源数据ღ◈◈,大家可以在上面玩ღ◈◈。
在过去很多年ღ◈◈,我们机器人的核心零部件都是自己开发的ღ◈◈。包括关于电机ღ◈◈、减速器ღ◈◈、部分的传感器等ღ◈◈,在视频里面ღ◈◈,是我们开发的第二代3D激光雷达ღ◈◈。这款3D激光雷达最大的特点就是相对来说它的视场角非常大ღ◈◈,达到了90几度乘以360度的视场角ღ◈◈。而且它的成本非常便宜ღ◈◈,单个的公开零售价大概只要1000元人民币左右ღ◈◈,也是标配在最低配的机器狗上ღ◈◈。基本上达到2到3个厘米的精度ღ◈◈,在室内和室外的都可以用ღ◈◈。
所以对于一些低速的ღ◈◈,比如清洁机器人或者物流机器人ღ◈◈,如果为了降低机器人的成本ღ◈◈,非常推荐用这款机器ღ◈◈。比如对一个小的物流机器人ღ◈◈,成本甚至可以降到小几千元ღ◈◈,是非常有竞争力的ღ◈◈。
在今年1月份的视频中ღ◈◈,大家可以看到(机器人)跑步还是相对僵硬一点ღ◈◈。但是在最近几个月我们已经开放给OTA给我们的客户ღ◈◈,跑步动作也会更加丝滑ღ◈◈,而且我们的跑步是可以进行复杂地形跑步ღ◈◈。别的一些厂家可能只能在平地上跑一下ღ◈◈,但是我们的机器人可以上下坡ღ◈◈,石块路都可以运行ღ◈◈。而且这个功能已经开放给所有客户ღ◈◈。所以大家可以关注到ღ◈◈,包括在全球很多客户用我们机器人参加各种活动ღ◈◈。
今年春晚上ღ◈◈,我们机器人跳舞ღ◈◈,是成为了目前中国的一个科技以及传统文化的符号ღ◈◈。我觉得这是非常不容易的一件事情ღ◈◈。
因为如果单纯的只是一个表演的节目ღ◈◈,以表演结束一两天以后ღ◈◈,甚至很多情况下大家都忘记了ღ◈◈。但现在来说ღ◈◈,机器人跟传统文化这个扭秧歌的这个表演ღ◈◈,已经成为了中国的一个某种意义上一个科技文化符号ღ◈◈。这我觉得是非常有代表性的一件事情ღ◈◈。我觉得没准过个十几ღ◈◈、二十年再看ღ◈◈,当时的也是非常经典的ღ◈◈。
这个项目是跟张艺谋导演合作的ღ◈◈。大家可能想象不到ღ◈◈,转手绢和抛手绢的idea就是张艺谋导演提出的ღ◈◈,然后我们帮他技术实现了一下ღ◈◈。
最大的挑战并不是说单台机器人跳舞ღ◈◈。单台机器人跳舞的话ღ◈◈,我们其实去年上半年就已经实现了ღ◈◈。这个项目最大的挑战ღ◈◈,是用16台机器人全自动变队形跳舞蜜芽tv.2722跳在线观看网站ღ◈◈。它的头上有三个激光雷达ღ◈◈,他对整个场景的自动的变队形ღ◈◈、走位ღ◈◈、跳舞都是全自动进行的ღ◈◈。
就简单来说ღ◈◈,每次表演的时候ღ◈◈,音乐一响ღ◈◈,整个流程就全部进行ღ◈◈。我们甚至中间没办法中断这个表演ღ◈◈,所以这个点还是非常有挑战ღ◈◈,以及当然最终效果也非常超过大家的预期ღ◈◈,也超过我自己的预期ღ◈◈。
大家可能发现ღ◈◈,我们机器人现在跳舞丝滑很多太阳成官网ღ◈◈。为什么大春晚上跳舞相对有点僵硬呢?其实原因非常简单ღ◈◈,因为这个技术我们是二月份才做出来的ღ◈◈。
而且大家可能也会好奇ღ◈◈,为什么春晚上我们机器人会用黑色那款老的机器人ღ◈◈,而不用更新的机器人?其实原因也比较简单ღ◈◈,就是这款机身有点小ღ◈◈,大概只有1.3米多一点ღ◈◈。在表演的时候ღ◈◈,大家是希望稍微大一点的机器人ღ◈◈,这样的话效果会比较好一些ღ◈◈。
跳舞和功夫其实不算我们目前最新的技术ღ◈◈,算老一代的技术ღ◈◈。这个技术最大的特点就是它可以学习理论上可以学习任何动作ღ◈◈。但这个技术有个不好的点ღ◈◈,就是它的动作序列都是固定的ღ◈◈,就是在表演之前要先去采集一个序列的动作ღ◈◈,去做AI训练后再放到机器人上用ღ◈◈。但有个很大的问题是什么呢?就是每次采集好以后ღ◈◈,整个动作都是固定的ღ◈◈,没办法去调整他的动作ღ◈◈,甚至有时候都没办法去中断这个动作ღ◈◈。 某种意义上是一个我们老一代的技术ღ◈◈。
刚才强调ღ◈◈,我们公司其实是一直非常重视机器人ღ◈◈,包括灵巧手ღ◈◈,包括上班ღ◈◈、去干活这件事ღ◈◈。而且可能说出来大家不相信ღ◈◈,我们公司的团队里面大部分做AI的人ღ◈◈,都在做让机器人干活这件事情ღ◈◈。
但是为什么宣传这部分做的比较少呢?其实原因比较简单ღ◈◈,就是我们公司希望干活的AI不是单功能性的AIღ◈◈,比如让一个机器人去整理衣服或者去烧个菜ღ◈◈。我们其实并不想做这件事情ღ◈◈。我们真正想做的干活的AIღ◈◈,是个通用型的AIღ◈◈。希望它各种功能都能做ღ◈◈,包括端茶倒水ღ◈◈、工厂干活ღ◈◈、表演性等等ღ◈◈。而这对于AI模型挑战非常大ღ◈◈,到现在为止做的都不是特别理想ღ◈◈,所以我们对这块的宣传相对少一些ღ◈◈。
刚才说的格斗上用的技术ღ◈◈,反而是我们最新一代的技术ღ◈◈。这个视频是我们四月份第一次把这个技术做出来的时候做的一个预告ღ◈◈。里面动作大家跟我们展会的还不太一样ღ◈◈。什么地方不太一样呢?就是这个四月份做出来的时候ღ◈◈,它的动作速度有点慢ღ◈◈。包括出拳动作ღ◈◈、踢腿动作都有点慢ღ◈◈。
这对于整个格斗效果来说不太理想ღ◈◈。所以后来我们在五月份真正跟央视合作做全球直播的时候ღ◈◈,又把出拳速度在内的各种动作至少加强了一倍左右ღ◈◈。
机器人每次做一个格斗动作或做一个连续格斗动作的时候ღ◈◈,可以认为是一个动作序列ღ◈◈。有10到20个动作序列ღ◈◈,要满足随机自由组合ღ◈◈。因为格斗的时候ღ◈◈,动作的随机性是比较大的ღ◈◈。动作列的排列组合方式非常多ღ◈◈。所以不仅要满足整个动作的随机组合ღ◈◈,而且随机组合要相对比较丝滑ღ◈◈。
还有一个最关键的点ღ◈◈,就是要做更大的一个抗冲击能力ღ◈◈。因为打比赛或格斗的时候ღ◈◈,外部的冲击和扰动是非常大的ღ◈◈,这跟单纯的舞蹈表演或者武术表演非常不一样ღ◈◈。如果大家有兴趣ღ◈◈,可以关注一下我们机器人的腿部ღ◈◈,它的腿部有很多凹坑ღ◈◈,而且大家知道这个腿是铝合金的ღ◈◈,在铝合金上面都有很多凹坑ღ◈◈,所以机器人的打击力度还是非常大的ღ◈◈,也比较有意思ღ◈◈。
今年上半年ღ◈◈,最大的特点ღ◈◈,我个人感觉ღ◈◈,由于整个行业非常火爆ღ◈◈,以及政策的相关支持ღ◈◈,平均(来讲)ღ◈◈,整机厂商ღ◈◈、零部件厂商ღ◈◈,每家企业有将近50%到100%的增长ღ◈◈,增长还是非常吓人的ღ◈◈。
海外也毋庸置疑ღ◈◈。比如特斯拉ღ◈◈,他们今年要量产几千台人形机器人ღ◈◈。而且今年大概率他们会发布第三代的特斯拉人形机器人ღ◈◈。大家也可以多关注一下这件事情ღ◈◈。
目前全球范围内太阳成官网ღ◈◈,大家在这块的热情ღ◈◈,尤其海外的大公司ღ◈◈,包括英伟达ღ◈◈、苹果ღ◈◈、Metaღ◈◈、OpenAI大家都非常持续在推动这个领域的发展ღ◈◈。
第一点就是对于机器人本体来说ღ◈◈,很多人可能会有个误区ღ◈◈。为什么可能机器人目前没有大规模应用ღ◈◈,或者目前的机器人的功能还不够ღ◈◈。可能有人会怀疑是不是目前的硬件不够好?或者成本比较高?其实目前的硬件是够用的ღ◈◈,某种意义上完全是够用的ღ◈◈。目前人形机器的硬件ღ◈◈,灵巧手ღ◈◈、整机ღ◈◈,某种意义上完全是够用的ღ◈◈,当然不够好啊ღ◈◈。需要持续把它做的更好ღ◈◈,更大的问题是要把他量产ღ◈◈。
目前最大的挑战还是具身智能的AI还是完全不够用ღ◈◈。这也是限制人形机器大规模应用的一个最大点ღ◈◈。简单说ღ◈◈,就是目前的感觉有点像ChatGPT出来之前的1到3年左右的时间ღ◈◈,目前整个业界大家已经发现了类似的方向以及技术路线ღ◈◈,但是没人把它做出来ღ◈◈。
大家也知道ChatGPT出来前面的几年ღ◈◈,做语音AI的已经做了十几ღ◈◈、二十年了ღ◈◈。但是大家一直觉得它很傻瓜ღ◈◈,根本完全没法用ღ◈◈。像ChatGPT出来以后ღ◈◈,大家达到了一个比一般人性能还更好的一个阶段ღ◈◈。(机器人)目前还没有到这个临界点ღ◈◈。
对于机器人AI这个临界点ღ◈◈,我觉得会达到什么程度呢?比如某一天ღ◈◈,我们带一个人形机器人到这个会场ღ◈◈,这个机器人之前也没见过这个会场ღ◈◈,如果我随便跟它说一句话ღ◈◈,“帮忙把这瓶水带给某个观众”ღ◈◈。它可以比较顺畅的自己走过去ღ◈◈,把这个事情干了ღ◈◈。或者说把这个房间帮忙整理一下”ღ◈◈。机器人完全没有见过这个房间ღ◈◈,能自己做这件事情的时候ღ◈◈,我觉得就差不多达到了机器人的ChatGPT时刻ღ◈◈。
如果快的话ღ◈◈,可能未来的一两年或者两三年还是很有可能实现的ღ◈◈。最慢的线年也是有很大概率可以实现ღ◈◈,大家可以关注一下ღ◈◈。
目前来说在具身智能和机器人来说ღ◈◈,模型架构都不够好ღ◈◈,也不够统一ღ◈◈。所以模型的问题其实是现在大家反而关注的有点少ღ◈◈,对数据的问题关注很多ღ◈◈。
因为在大语言模型领域ღ◈◈,大家觉得我有足够多的数据ღ◈◈,尤其有足够多好的数据的时候ღ◈◈,就能把模型训练的越来好ღ◈◈。
但是在具身智能ღ◈◈,在机器人领域ღ◈◈,大家可以发现ღ◈◈,很多情况下数据有了ღ◈◈,但这个数据用不起来ღ◈◈。所以很多情况下大家对模型的关注目前是相对有点少ღ◈◈,反而对数据关注有点太高了ღ◈◈。
(对于模型来说)ღ◈◈,大家也知道目前相对比较火的就是VLA模型(记者注ღ◈◈:视觉—语言—行动模型)ღ◈◈。VLA模型是一个相对比较傻瓜式的架构ღ◈◈。我个人对VLA模型还是抱一个比较怀疑的态度ღ◈◈。
对于VLA模型ღ◈◈,目前与真实世界交互的时候ღ◈◈,采集的数据是不太够用的ღ◈◈。所以有个简单的想法ღ◈◈,就是在VLA模型上面加一个RL(记者注ღ◈◈:强化学习)的训练ღ◈◈,这是大家一个非常自然的想法ღ◈◈。但是我个人感觉ღ◈◈,包括我们公司目前尝试下来ღ◈◈,VLA+RL还是不够的ღ◈◈,这个模型架构还是得再升级和优化ღ◈◈。
这里也简单分享一下我们过去做的一些事情ღ◈◈。大家可以关注到ღ◈◈,前几天谷歌发布了他们全新一代的视频生成模型ღ◈◈,或者某种意义上是一个视频驱动的世界模型ღ◈◈。
去年OpenAI发布他们的视频生成模型的时候ღ◈◈,大家会有个很自然的想法ღ◈◈,比如让它生产一个机器人整理房间的视频ღ◈◈,如果能顺利完成的话ღ◈◈,那能不能让这个视频生成模型直接驱动机器人去做这件事ღ◈◈,想法非常直接简单ღ◈◈。对吧?所以我们去年的时候就去做了这个事情ღ◈◈。
我们用一个预训练的视频生成模型ღ◈◈,重新又去训练了一下ღ◈◈,让它先去生成一个视频的机器人动作ღ◈◈,再控制机器人去做ღ◈◈。这个技术是能实现的ღ◈◈,谷歌的视频生成世界模型也是想实现这个效果ღ◈◈。
我觉得这个路线ღ◈◈,可能比VLA模型收敛的概率还更大ღ◈◈,但我不敢打包票ღ◈◈,可能还是会有很多问题ღ◈◈。其中一个很大的问题是ღ◈◈,视频生成模型太注重视频生成的质量了ღ◈◈,导致对GPU的消耗有点大ღ◈◈。但是对机器人干活来说ღ◈◈,某种意义上并不需要很高精度的视频生成质量ღ◈◈,只要驱动机器人去干活就行了ღ◈◈。
刚才我已经提出了一点个人想法ღ◈◈,但实际上还是不太够用ღ◈◈。目前机器人跳跳舞ღ◈◈,打格斗ღ◈◈,其实效果不错了ღ◈◈,对吧?但实际上现在面临一个很大的问题ღ◈◈,就是机器人的scaling lawღ◈◈,就是缩放定律还是做的非常不好ღ◈◈。
举个最简单例子ღ◈◈,如果训练一个机器人的训练动作ღ◈◈,比如有一个新的舞蹈ღ◈◈,或想让它干一个活ღ◈◈。每次有新的动作ღ◈◈,都要重新训练ღ◈◈,还是从头开始训练ღ◈◈,这是非常不好的一个事情ღ◈◈。
我们是希望ღ◈◈,每次做新训练的时候ღ◈◈,是在老的训练基础上去做ღ◈◈。理论上做RL训练的时候ღ◈◈,每次训练的时候ღ◈◈,训练速度越来越快ღ◈◈,学习新技能的效果越来越好ღ◈◈。
但是全行业内ღ◈◈,目前整个机器人在RL这里scaling law蜜芽tv.2722跳在线观看网站ღ◈◈,没有人做出来ღ◈◈,没有人做好ღ◈◈,我觉得这是非常值得做的一个方向ღ◈◈。
因为scaling law在语言模型已经是充分验证过的事情ღ◈◈。但是在机器人的运动控制上面ღ◈◈,还刚刚开始蜜芽tv.2722跳在线观看网站ღ◈◈。在座的有些同学ღ◈◈,可以关注一下这个领域之类太阳成官网ღ◈◈,其实可以发表一些比较好的论文ღ◈◈。
个人感觉ღ◈◈,在未来2到5年ღ◈◈,最重要的一件事还是端到端的具身智能AI模型ღ◈◈。大家可以多关注ღ◈◈,多推动ღ◈◈。模型本身是非常最重要的ღ◈◈。另外就是更低成本的ღ◈◈,更高寿命的硬件ღ◈◈,这个是毋庸置疑的ღ◈◈。
大家知道ღ◈◈,对于汽车行业来说ღ◈◈,已经一百多年了ღ◈◈,哪怕到今天ღ◈◈,如果你对一家企业要做一个很好的一辆汽车出来ღ◈◈,它的工程量还是非常大的ღ◈◈。
对机器人行业ღ◈◈,比如说每年有几百万ღ◈◈、几千万甚至几亿的人形机器人ღ◈◈。如果要生产制造出来ღ◈◈,工程量挑战还是非常吓人的一件事情ღ◈◈。
关于低成本的大规模算力ღ◈◈,我分享一个概念ღ◈◈,其实在人形机器人或者在移动机器人本体上ღ◈◈,其实没办法直接部署很大规模的算力ღ◈◈。为什么呢?因为它的尺寸只有这么大ღ◈◈,它的电池只有这么大ღ◈◈,它部署的算力的功耗是有限制的ღ◈◈。
我个人感觉在人形机器人上ღ◈◈,最多只能部署峰值功耗大概只有100瓦的算力ღ◈◈。最好平时工作的时候算力只有小几十瓦ღ◈◈。简单说ღ◈◈,就只有大概几个手机的算力水平ღ◈◈。因为它的尺寸比较小ღ◈◈,不能部署大规模算力ღ◈◈。
但是对于未来对大规模的算力需求ღ◈◈,肯定是毋庸置疑的一件事情ღ◈◈。而且我觉得可能是个分布式的算力ღ◈◈,为什么呢?
因为机器人在干活的时候ღ◈◈,它的通讯延迟是希望比较低的ღ◈◈。如果在北京干活的机器人ღ◈◈,的数据中心或者算力中心在上海或者在内蒙ღ◈◈,延迟实在是太大了ღ◈◈。
所以我个人感觉ღ◈◈,未来在工厂里大规模应的时候ღ◈◈,比如一个工厂里面有100个机器人ღ◈◈,那工厂里面可以有部署一个集群的分布式服务器ღ◈◈,所有的机器人就直接连接工厂里的局部服务器就好了ღ◈◈,这样整个服务器的安全性ღ◈◈、通信延迟是可以接受的ღ◈◈。
或者换一个话题ღ◈◈,比如一个小区每家每户有一个机器人的时候ღ◈◈,我觉得在这个小区或者这个区里面ღ◈◈,肯定是有分布式的一个集群算力中心的ღ◈◈。
这样的话ღ◈◈,延迟和安全性是有保证的ღ◈◈。并且如果有一个新的客户想买一个人形机器人的时候ღ◈◈,不需要给这部分算力花钱ღ◈◈,成本也会更低很多ღ◈◈。
最后ღ◈◈,大家知道过去在AI领域ღ◈◈,包括机器人领域ღ◈◈,都是一个全球共创的过程ღ◈◈。中美在内的全球很多的企业都做了很多贡献ღ◈◈,在AI领域没有人能保证ღ◈◈,也没有一家大公司能保证ღ◈◈,有足够的人ღ◈◈、有足够的资源ღ◈◈,永远能确保其在AI领域是最领先的ღ◈◈。过去OpenAI太阳成官网ღ◈◈、deepseek已经证明了AI的创新永远伴随着一些随机性ღ◈◈,伴随着更多聪明的年轻人ღ◈◈。很多情况下ღ◈◈,都是每家公司或者每家高校都做了很多贡献ღ◈◈,这是需要全球共创出来的ღ◈◈。谢谢大家ღ◈◈。suncity太阳新城大阳城集团网站ღ◈◈,tyc太阳成集团ღ◈◈。suncitygroup太阳集团