• 首页 > 企业IT频道 > 人工智能

    将ChatGPT与物理机器人结合,波士顿动力开发了一只怪物!

    2023年10月27日 09:35:33   来源:AIGC开放社区公众号

      10月27日,全球顶级机器人开发商波士顿动力(Boston Dynamics)在官网展示了一项新的研究,通过将ChatGPT、Spot以及其他AI模型相结合,开发了一种会说话的导游机器狗。

      据悉,该机器狗能够根据文字、语音提示与人类进行交谈,同时提供了视觉问答功能,可以分析摄像头拍摄的画面,自动生成图像说明。

      波士顿动力表示,ChatGPT等大语言模型展现出了强大的控制和输出能力,这让他们大受启发,可以用于控制物理机器人的行为和决策功能。例如,输入一些特定景点数据、图片等,可让机器人提供逻辑清晰、条理分明的导游功能。

      此外,这也增强了物理机器人的拟人化能力,如为你讲一个冷笑话,做一个逗你开心的滑稽动作。如果采用传统的发方法,将是一件非常困难的事情。

      导游机器狗技术原理

      波士顿动力使用了自研的四足机器人Spot作为物理机器人框架,实现了行走、监控、导航、扫描等基础功能。

    1.jpg

      为了能让机器狗说话与人类互动,研发人员为其配备了Respeaker V2扬声器,这是一个带有 LED 的环形阵列麦克风,可通过USB将其连接到Spot的EAP2实现数据传输。

      1)Spot EAP2)扬声器3)蓝牙音箱4)点臂和夹具相机

      使用了一台电脑作为机器狗的控制大脑,并通过Spot SDK与其实现数据交互。为了让机器狗具备拟人化动作,例如,点头,伸脖子等,使用了Spot的点臂和夹具相机。

      用ChatGPT让机器狗说话

      物理硬件环境搭建完成后,为了使机器狗具备对话功能,研发人员使用了GPT-3.5和GPT-4与Spot SDK相结合,并进行了简单的指令微调,让机器狗具备了初级导游判断和对话功能。

      接下来,为了让Spot与人类和环境进行交互,集成了VQA和语音转文本软件。同时将机器人的抓手摄像头和前置机身摄像头输入BLIP-2,并以视觉问答模式(例如“这张图片有什么有趣的地方?”等简单问题)或图像字幕模式运行它。

      该过程大约每秒运行一次,结果将直接输入到提示中。

      为了让机器狗可以实现“听”的功能,研发人员将麦克风数据分块输入到OpenAI的语音模型Whisper中转换为英文文本。

      为了让机器狗能与人类实现对话,需要将人类的语音指令转换成文本用于提示ChatGPT,因此还需要一个转换工具。开发人员在尝试了多种工具后,决定使用了云服务ElevenLabs。

      实验中的惊奇现象

      在多个测试对话过程中,研发人员发现了一个令人惊奇的现象,机器狗好像具备了简单的自我决策能力。

      例如,向机器狗询问Marc Raibert(波士顿动力执行董事)是谁时?它回答:“我不知道他是谁,让我们去服务台问一问吧。”

      到了服务台,机器狗继续向服务人员询问Marc Raibert是谁?

      当研发人员提问:你的父母是谁?机器狗走向了Spot V1和Big Dog的展示区,并认为这些机器人是它的父辈们。实际上,它们之间确实有关联

      机器狗还展现出了有趣的一面,可以主动向路人询问,周围是否有神秘的生物。

      波士顿动力表示,未来还会持续优化该产品的功能。ChatGPT与实体机器人的相结合,为大语言模型实现物理化落地打开了大门,可以在导游、娱乐、物流、陪伴等领域得到广泛应用。

      关于波士顿动力

      波士顿动力(Boston Dynamics)成立于1992年,总部位于马萨诸塞州波士顿。起初是麻省理工学院(MIT)的一个分支机构,后来发展成为一家独立的公司。

      波士顿动力以开发高度先进、灵活且具有实用性的机器人而闻名,其产品在工业、研究和消费领域都有应用,主要代表机器人包括:BigDog、Atlas、Spot、Handle等。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    TCL实业荣获IFA2024多项大奖,展示全球科技创新力量

    近日,德国柏林国际电子消费品展览会(IFA2024)隆重举办。凭借在核心技术、产品设计及应用方面的创新变革,全球领先的智能终端企业TCL实业成功斩获两项“IFA全球产品设计创新大奖”金奖,有力证明了其在全球市场的强大影响力。

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。