毕尔巴鄂对阵皇家社会:两支近邻球队将于西甲联赛 “巴斯克德比”中为捍卫荣耀而战贝壳第三季度营收226亿元 经调净利润17.8 亿元 同比下降17.46%AI营销,让科技巨头尝到了大模型商业化的甜头安恒信息范渊在乌镇峰会谈AI:以工具视之、以工具用之、以工具治理之诺基亚与微软再合作,为 Azure 数据中心供货延长五年天岳先进发布业界首款 300mm(12 英寸)N 型碳化硅衬底三星介绍内部安全团队 Project Infinity 攻防演练项目,高效修复 Galaxy 手机平板漏洞上海市将推进低空飞行服务管理能力建设,2027 年底前累计划设相应航线不少于 400 条岁末,海尔给您备好一套“小红花”为什么说Q10K Pro是今年最值得入手的电视?看完这几点就明白了!“小墨方·大不凡”!Brother“小墨方”系列彩喷一体机全新上市黄仁勋:AI智能需求强劲,“物理定律”限制英伟达芯片增长诺基亚与微软再合作,为Azure数据中心供货延长五年国家数据局:到2029年基本建成国家数据基础设施主体结构中国已发展成为全球最大的互联网市场,拥有全球最多的网民和移动互联网用户中国铁塔:计划按照10:1的比例合股美国FCC正式划定5.9GHz频段用于C-V2X技术在AI领域奋起直追!苹果要对Siri大革新 2026年正式发布日本机构公布量子专利榜单:本源量子、国盾量子位居全球第1中国联通:拟向华为、中兴展开5G网络设备竞争性谈判采购
  • 首页 > 云计算频道 > 大模型

    Wayve推出GAIA-1 9B,通过生成合成视频训练自动驾驶

    2023年10月07日 12:07:48   来源:站长之家

      英国初创公司Wayve在2023年6月发布了GAIA-1(Generative Artificial Intelligence for Autonomy),这是一款为自动驾驶车辆培训数据而设计的生成式模型。GAIA-1的最新版本,GAIA-19B,已经取得了令人瞩目的进展。

      GAIA-1的独特之处在于它的能力,它能够使用文本、图像、视频和行动数据来生成各种交通情景的合成视频。这一能力填补了自动驾驶车辆训练中的数据缺口。

      试想一下,在雾中,有一个行人从卡车后面跳出来,同时一名摩托车手即将超越你,一名自行车手从前方靠近。这是一个真实的情景,但要捕捉到这个精确的场景,你需要开多少英里的车并进行拍摄呢?GAIA-1回答了这个问题,它可以生成各种交通情景的合成视频,用于自动驾驶车辆的培训。

      与传统的生成式视频模型不同,Wayve表示,GAIA-1是一种生成式“世界模型”,它学会了理解和解读驾驶的最重要概念。它能够识别和分离不同的车辆及其特征、道路、建筑物或交通信号灯等概念。GAIA-1还学会了代表环境及其未来动态,为驾驶提供了结构化的环境理解,可用于做出明智的驾驶决策。

      自GAIA-1首次发布以来,Wayve团队对其进行了优化,以高效生成高分辨率视频,并通过大规模培训提高了世界模型的质量。该模型现在拥有90亿个参数(相对于六月版本的10亿个参数),还能够精确控制视频中的车辆行为和场景特征。这使其成为培训和验证自动驾驶系统的强大工具。

      GAIA-1的模型基于在2019年至2023年间在英国伦敦收集的4700小时专有驾驶数据。模型的架构包括每个输入模态(视频、文本和行动)的专用编码器、世界模型、自回归变换器和视频解码器,以及将预测的图像元素转换回像素空间的视频扩散模型。

      值得注意的是,GAIA-1的世界建模任务与大型语言模型(LLMs)常用的方法非常相似,其中任务被简化为预测下一个标记。在GAIA-1中,这一方法应用于视频建模,而不是语言。这表明随着模型大小和培训数据集的增加,GAIA-1在视频生成方面的性能和效率将继续提高,类似于大型语言模型在其各自领域内观察到的缩放模式。开发人员表示,随着更多的数据和处理能力,仍然存在“显著的改进空间”。

      此外,GAIA-1还可以预测过去的上下文视频图像的不同未来情景,包括行人、自行车手、摩托车手和对向交通的行为,从而使模型能够考虑与其他道路使用者的互动并对情况做出反应。GAIA-1还可以通过纯文本输入进行控制,例如,通过文本命令“天气是晴朗的”、“多雨的”、“有雾的”或“多雪的”来生成不同的驾驶情景。此外,它还可以使用文本命令,如“现在是白天,我们处于直射阳光下”、“天空是灰色的”、“现在是黄昏”和“现在是夜晚”,来创建不同的照明情景。

      然而,Wayve也指出了GAIA-1的一些局限性。虽然自回归生成过程非常有效,但需要大量计算,因此生成长时间的视频会非常计算密集。此外,当前模型主要集中于预测单一摄像机输出,而自动驾驶需要来自所有周围视点的全面视图,这是关键问题之一。

      未来的工作将扩展该模型的能力,以捕捉更广泛的视角,并优化其生成效率,使该技术更具适用性和效率。此外,Wayve还在开发Lingo-1,这是一种自动驾驶系统,将机器视觉与基于文本的逻辑相结合,以解释道路上的决策和情况。这种基于文本的逻辑可以增加车辆的安全感,使人工智能的决策不再像一个“黑盒子”。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。

    研究

    中国信通院罗松:深度解读《工业互联网标识解析体系

    9月14日,2024全球工业互联网大会——工业互联网标识解析专题论坛在沈阳成功举办。