国庆假期点燃科技消费热 146家京东3C数码新店开业人气爆棚安慕斯亮相第二届东城区“龙潭杯”中小学围棋棋王赛京东“天命人向西游”活动受热捧 打开京东搜“天命人”可一元抢万件联名好礼京东闪电新品季火热进行中 买科沃斯地宝T50 PRO可价保11.11安徽消费者领补贴后来京东买电脑更划算 惠普暗影精灵10主机立减1751元跟着京东打卡《黑神话:悟空》“现实版” 这份国庆出游路线请查收国际老年人日来京东为长辈办理联通“孝心卡” 手机位置实时提醒 看护更方便国庆假期来京东领厦门补贴买电脑更划算 ThinkBook 16p到手只要7199元京东带来路由器价保11.11权益 即日起买路由器来京东更划算真五折福利限时秒杀 京东采销带你云逛装备前线外设展联想YOGA AIPC系列新品亮相,引领智能办公新体验丰田比亚迪宝马领克smart等五大汽车品牌召回23万多辆车受邀参加云栖大会,Soul App构建人与AI共存的社交网络消息称字节跳动计划使用华为芯片训练新的 AI 模型上交所集采鲲鹏等国产CPU服务器华为发布阿尔法系列天线,定义下一代天线解决方案阿里破冰,京东和解,微信躺赢智源研究院推出全球首个中文大模型辩论平台FlagEval Debate英伟达豪掷 2.5 亿收购 OctoAI,锁定企业级生成 AI 市场富士通推出 Takane 大型语言模型,助力企业智能化升级
  • 首页 > 云计算频道 > 大模型

    多模态AI模型Unified-IO2:可理解和生成图像、文本、音频和动作

    2024年01月02日 11:40:57   来源:站长之家

      近期,由艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校和华盛顿大学的研究人员联合开发的“Unified-IO2”标志着人工智能能力的一次巨大飞跃。

      与之前只能处理双模态的前辈不同,Unified-IO2是一款自回归的多模态模型,能够解释和生成文本、图像、音频和视频等多种数据类型。作为第一款在多模态数据上从零开始训练的模型,其架构基于单一的编码器-解码器变压器模型,独特设计将各种输入转换为统一的语义空间。这种创新性的方法使得该模型能够同时处理不同类型的数据,克服了以往模型在处理多模态数据时的限制。

      Unified-IO2的方法复杂而创新。它采用共享表示空间来对各种输入和输出进行编码,通过使用字节对编码文本和用于编码稀疏结构(如边界框和关键点)的特殊标记来实现。图像通过预训练的视觉变压器进行编码,线性层将这些特征转换为适用于变压器输入的嵌入。音频数据经过类似的处理,转换成频谱图并使用音频频谱变压器进行编码。模型还包括动态打包和多模态去噪器目标的混合,以增强其处理多模态信号的效率和效果。

      Unified-IO2不仅在设计上令人印象深刻,其性能也同样令人惊叹。在超过35个数据集上进行评估,它在GRIT评估中创下了新的基准,在关键点估计和表面法线估计等任务上表现出色。在视觉和语言任务中,它与许多最近提出的视觉语言模型相匹敌甚至表现更好。尤其值得注意的是,在图像生成方面,它在忠实度方面超越了最接近的竞争对手。该模型还能有效地从图像或文本中生成音频,展示了其在广泛能力范围内的多才多艺。

      Unified-IO2的开发和应用所得的结论是深远的。它代表了人工智能处理和整合多模态数据方面的显著进步,为人工智能应用开辟了新的可能性。它在理解和生成多模态输出方面的成功突显了人工智能更有效地解释复杂现实场景的潜力。这一发展标志着人工智能领域的一个重要时刻,为未来更为细致和全面的模型铺平了道路。

      Unified-IO2象征着人工智能内在潜力的信标,标志着向更为整合、多才多艺和强大系统的转变。它成功地驾驭了多模态数据整合的复杂性,为未来人工智能模型树立了一个先例,预示着人工智能将更准确地反映和与人类经验的多面性互动。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。