粉丝7860获赞2.7万
能听会看,还能做家务的人形机器人出现了,他和之前的人形机器人相比,都有哪些过人之处?又会对我们的未来产生什么样的影响呢?三月十四号,明星机器人公司菲格发布了一个由 open ai 大魔性支持的人形机器人 v 点零一, 他可以理解人类的意图,并把苹果递给人,还能在人类的命令下做家务、收拾餐桌,把杯子和盘子放进沥水架里。 通过自我学习,他具备了规划和执行自己的行为,并和人类进行完整交流的能力。威震是一家刚刚成立一年半的初创公司, 半个月前,他刚刚获得了包括欧芬 ai、 微软、英伟达、英特尔等科技巨头的六点七五亿美元融资,并且飞哲还宣布将和欧芬 ai 共同开发下一代 人形机器人,将 openni 的多模态模型扩展到气人的感知、推理和交互环节。刚刚过去了十几天,这个由 openni 大模型充当大脑的人形机器人就出现了,而他做到的这一切只是通过一个端到端神经网络框架实现的。 首先,他会把通过摄像头拍摄到的图像和通过麦克风记录的语音转文本信息输入到一个由 openni 训练的多模态模型中。 这个模型能够同时理解图像和文本信息,还能处理整个对话的历史记录,包括以往的图像,并通过文本到语音的方式向人类做出回答。 这个模型还负责决定执行哪种已经学会的行为来响应人类给出的命令。他将特定的神经网络权重加载到 gpu 上,并执行相应的策略。 以往我们看到过的人行机器人所完成的动作基本都是在人类的指引或 vr 遥控下实现的,并且由于这些机器人的动作和反应速度都有延迟,所以公布的视频画面基本都是加速过的。 而飞者零一的所有动作都是在没有人类遥控下自主完成的,并且视频也是按实际的速度播放的。在 openna 大模型的支持下,飞者零一可以描述他看到的外部环境,计划下一步的行动,从他的记忆中进行反思,并口头解释他是如何进行推理的。 非洲零一的首部动作由神经网络视觉运动 transformer 策略驱动,他以每秒十四的频率接收摄像头拍摄到的图像,并将像素直接映射到动作,然后以每秒两百四的频率生成手腕姿势、 手指关节角度的动作。菲智灵仪的主要优点是人形化设计,它具有像人类一样的躯干、胳膊、手、腿和脚,这样他可以使用和人类相同的工具、设备和设施。 他有五根手指,每个手指有三个关节,可以打开箱子和操作机器。所以他非常适合在专为人类设计的环境,像工厂、仓库、商店或家里工作。 非洲零一还可以通过观察人类如何做,甚至可以通过观看视频分析和模仿人类或其他机器人的动作。 之前非洲零一就通过观看人类如何使用咖啡机学会了煮咖啡。他还通过观看其他机器人工作的视频学会了组装汽车零件,这样他可以不用人类手动编程就能学会新的技能,节省了时间和资源, 方便进行大规模的商业化部署。今年一月,非洲人和宝马公司签署了一项协议,准备在宝马位于美国的生产基地部署非洲零一,这也让他成为了第一个在商业上可行并准备在现实世界中部署的人形机器人。 飞者的目标是制造一个可以在现实环境中工作并具有商业可行性的自主人形机器人。而 openni 也一直在进行机器人方面的研究。几年前,他们就训练过一只机械臂破解魔方。融入飞者零一也是他们有益的战略布局。 一家公司提供强大的大脑,一家公司提供灵活的身体,一个能像人类一样学习工作,能够适用于不同任务和环境的机器人就出现了。对比其他的人性机器人,像波士顿动力的阿特拉斯和本田公司 的阿西莫,他们要么是太贵、太复杂,要么就是在实际应用中的功能太有限。而非洲零一的设计是经济实惠、可拓展的。 非洲的创始人布雷特阿德科克表示,在成本方面,一个人行机器人有约一千个零件,重约六十八公斤,而一辆电动汽车大概有一万个零件,重达两千公斤。因此,长期来看,人行机器人的成本有望低于电动汽车。 未来,这样的日行机器人也许会像汽车一样进入众多的家庭,承担像保姆一样的工作,改善我们的生活。 另一方面,这样的人性机器人大量部署,会夺取很多简单重复的工作岗位,让很多人失业,并且还会让一些依靠人员成本优势,有大量劳动密集性产业的国家 失去吸引力和竞争优势。从非洲零一身上我们隐约看到了未来世界的样子,所以我们应该早做准备迎接改变。