科技工作者之家
科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。
科技工作者之家 09月25日
作者:赵广立 来源:中国科学报
进入2024年的人形机器人,发展有多快?
“或许某一天有‘人’敲你的门,但你分不清站在外面的是机器人还是真人。”在日前在杭州举办的阿里巴巴云栖大会“云与AI的创见”主论坛上,至顶科技CEO高飞提出,这一天或许很快就会到来。
但这一天到底会在什么时候到来?高飞也没有答案。他看到的是,随着大模型的出现,人工智能(AI)越来越让人真假难辨。而当“人形机器人+大模型”组合闯进人类世界,人形机器人或许将迎来“图灵时刻”。
在云栖大会上展出的人形机器人。 阿里云 供图
机器与物理世界交互的载体
对于许多人而言,机器人早已不是新鲜事物,但人形机器人是。尤其2024年以来,人形机器人仿佛一夜之间走出实验室,吸引了人们关注的同时,也成为投资圈的新宠。
人形机器人不就比机器人多了个“人形”么?何以如此与众不同?甚或,人形机器人为何一定要做成“人形”?
成立于2022年1月的深圳逐际动力科技有限公司(以下简称逐际动力),从创立之日起就瞄准“通用机器人”的研发制造这个赛道。其创始人张巍在回答高飞抛出的这个问题时,谈到了“人形”的独特之处。
“首先我觉得,机器人和AI的使命不同,AI代替人的部分思考和决策,而机器人本质上要替代人的劳动,所以它必须能动。”张巍说,各式各样的机器人本质上只做两件事:移动和操作。而通用机器人的特点,就是在这两种能力上都能达到接近人的环境适应能力和对任务的泛化性。
张巍提到,如果只需要机器人具有通用的移动能力,它可以不需要双臂;但只要论及通用的操作能力,双臂、双腿都是必须——否则就不能做许多人的工作。
他也谈到,大模型的出现,让“通用”和“专用”有了更多意义。“大模型强调先构建一个通用的基础模型,然后再在上面‘生长’出专用的能力,这是系统化解决AI泛化能力的一个关键。”
在张巍看来,软件算法的通用性要靠大模型,而机器人与物理世界交互的通用性,就要靠人形机器人。
“所以我觉得人形机器人一定要做成人形,而且是有两条腿的人形机器人。”他说。
在现场,北京银河通用机器人有限公司(以下简称银河通用)是一家比逐际动力还年轻的人形机器人创新企业,它由归国学者、北京大学助理教授王鹤创办。自2023年5月成立迄今仅16个月,就拿到超7亿元融资。业内人士对其最新估值为30亿元。不过,银河通用现阶段研发的人形机器人并没有两条腿,它的“双腿”是一个可以360度活动的轮盘。
“银河通用从创立的第一天,目标就是实现通用机器人。”王鹤说,不过他认为,通用机器人之路需要一个过程——逐步从“单一场景、多任务、可移动”过渡到“多场景、多任务”,最后实现“全场景、全任务”。
王鹤认为,在这个过程中,人形机器的形态上在不同阶段有它最适合、最经济、最稳定的载体,并实现在对应场景中“沿途下蛋”、创造价值。
他还进一步解释了现阶段银河通用人形机器人“为何有两只手却没有腿”:“我们选择先从几个特定场景如药店、超市等零售行业,机器人可以帮助上货、下货,在工厂抱箱子。这些场合只要是平地,360度轮式是够用的。”
人形机器人“小脑”更受关注
如果粗略地将人形机器人重要的技术分成3块:大脑(智能水平)、小脑(身体协调和运动能力)、本体(机器人硬件等),“行家”更关注它的哪部分?
答案是“小脑”。
清华大学交叉信息研究院助理教授、北京星动纪元科技有限公司(以下简称星动纪元)创始人陈建宇虽然是“90后”,但他已是机器人行业“老兵”,有着超10年的机器人和AI研发经验。
“‘大脑’‘小脑’‘本体’都同等重要,但如果相对人形机器人来说,我个人认为是‘小脑’,因为它是人形机器人最基础的、赖以立足的部分。”陈建宇说,如果只有大脑和本体,人形机器人“只是一堆会思考的烂铁”。
陈建宇同时提到,他看到的是,现在人形机器人的“小脑”相对于其他部分,技术是最薄弱的,也是不确定性最高的。
“‘大脑’的发育有不断进化的大模型技术,机器人本体也有许多可以借鉴的硬件新技术,但我们发现,现在大部分机器人操作和运动能力的技术源头,还是十几年前甚至几十年前工业机器人或扫地机的技术。”他说,这让他担忧人形机器人的发展前景。
当前,人形机器人的双手和双腿还不能像人一样的又稳又快又灵活,能够“上得厅堂、下得厨房”帮人们做事;甚至稍微需要一些灵巧度的事情,机器人都有可能搞砸,比如在倒水的时候捏碎一只玻璃杯。
因此,当谈及人形机器人最关键的技术能力时,几位技术派的创业者不约而同地提到两个关键词:泛化和通用。
“看一款人形机器人是不是真的厉害,你就在演示的时候给它捣乱——走的时候突然上去踢一脚、给它设置一些障碍物,或者在它要做一个抓取动作时突然把目标物移开,然后看它能不能稳定、智能地去适应或完成。”陈建宇说。
王鹤和张巍的答案虽然和陈建宇不太相同,但讲得是同一回事。
王鹤说,银河通用现在着重关注机器人上半身的“手—眼—脑”的协调。例如,看它抓取物体是否能够做到不限材质、色泽,能不能通过机器视觉的泛化能力,在完全陌生的环境有强大的适应性。“第一是它的泛化能力有多强,第二是看它能不能跟人用自然语言顺畅地沟通,然后实现零代码部署。”
“我看机器人先看腿。”张巍说,他认为人形机器人不是传统机械臂公司的延续,而是一个“本质就是要‘长’出两条腿来的新物种”——这两条腿既要能完成本职工作,有对地形的泛化能力,还要能支撑双臂完成全身协同的操作。
“这是双腿存在的价值。”张巍说。
人形机器人何时才能“下地干活”?
相比银河通用、逐际动力这些“新锐”势力,成立于2016年的杭州宇树科技有限公司(以下简称宇树科技)算得上是一家“老牌”机器人公司。在创始人、CEO王兴兴的带领下,宇树科技并没有“All in”人形机器人,而是四足机器人和人形机器人“两条腿”走路。目前,宇树科技的四足机器人不但实现量产,还在多个行业的数十个项目上展露应用潜力、实现商品化,俨然四足机器人企业“龙头”。
“如果在三五年前有投资人问我,宇树科技做不做人形机器人,我会坚决反对。”王兴兴说,这缘于他的研发经历。在上大学时,他就尝试做过小型人形机器人,当时的失败经历让他意识到,当前人类科技无法驾驭那么复杂的机器人系统。
改变他看法的,是惊艳到他的大模型技术。2023年,宇树科技也开始涉足人形机器人。一年半后,宇树科技已经发布了两款人形机器人。
“人形机器人的发展节奏,无论硬件还是软件,都超出了我的预期。”王兴兴说,他希望到2025年,能看到推理性能和运动水平能够同步进化的AI模型:“只要给它看一个演示视频,它就能学会一个动作”。
这不是一般的进步。王兴兴认为,如果能够实现,将会对人形机器人未来的应用落地带来巨大空间。到那时,就不必再去想“人形机器人何时才能‘下地干活’?”这个问题了。
王鹤和王兴兴都认为,即便是现在,人形机器人的技术也已经来到了产业化的边缘。他们预计,到2025年,人形机器人将在某些固定场景产生一些具有商业价值的落地应用;3年后,全球范围内诞生更加通用的机器人“是有很大概率的事”;而随着资本对人工智能、机器人持续不断的巨量投入,未来5~10年,人形机器人成规模地进入工厂甚至人类家庭“此景可待”。
不过,张巍对此有不同的理解。他认为,人形机器人的赛道用时间衡量比较难,因为这个赛道的产业发展是“事件驱动”而非技术驱动,关键要看什么时候找到“关键事件开关”。他还提醒,“避免过早的商业化”或许对人形机器人未来的商业化更友好,毕竟谁也不想看到人形机器人的产业落地走人工智能一开始“智能不够就靠人工打补丁”的老路。
陈建宇则提出,根据美国社会学家艾弗雷特·罗杰斯提出的“创新扩散模型”,任何创新产业都会有早期使用者愿意去尝试、试错,人形机器人产业也会如此:“相信近两年就会看到各个行业对人形机器人的早期试用者。”