一季度中国电视品牌整机出货量同比增长4.7%,Mini LED成大赢家2025Q1烟灶市场:提升能力、保持定力,行稳致远真我推出首款 AI 翻译耳机 Bud Air7 Pro,支持 32 种语言翻译!Sand AI开源MAGI-1视频生成模型:无限扩展、高保真Vidu Q1正式上线,画质更高清,首尾帧更丝滑MCP SDK 正式支持流式 HTTP,开发者迎来全新体验英特尔锐炫B770显卡或仍存希望,32核16GB显存配置引期待OPPO Find N5 OTA更新:跨端互联新体验MySQL 9.3 发布:备份能力与功能优化显著提升移远通信智能模组赋能东成电动工具 无边界割草机器人实现智能化升级2025第七届零售银行领导者年会圆满落幕,走进苏州农商银行研学活动成果丰硕!Cleer ARC 5音弧AI耳机发布:搭载骁龙S7+平台OpenAI 推出 macOS ChatGPT 新功能,助力编程与搜索更高效京东外卖崩了 官方致歉:超时 20 分钟订单全部免单Ainos AI 鼻成功植入ugo人形机器人,机器拥有“嗅觉”67款APP违法收集使用个人信息被通报(附完整名单)一加13T搭载满血ColorOS 15:最流畅的小屏旗舰继微软之后,亚马逊也放弃了“雄心勃勃”的 AI 数据中心计划魅族Flyme 12系统提档至5月发布 深度融合AI技术吉利雷达超级混动皮卡上海车展首发,续航超1000km 一季度中国电视品牌整机出货量同比增长4.7%,Mini LED成大赢家2025Q1烟灶市场:提升能力、保持定力,行稳致远真我推出首款 AI 翻译耳机 Bud Air7 Pro,支持 32 种语言翻译!Sand AI开源MAGI-1视频生成模型:无限扩展、高保真Vidu Q1正式上线,画质更高清,首尾帧更丝滑MCP SDK 正式支持流式 HTTP,开发者迎来全新体验英特尔锐炫B770显卡或仍存希望,32核16GB显存配置引期待OPPO Find N5 OTA更新:跨端互联新体验MySQL 9.3 发布:备份能力与功能优化显著提升移远通信智能模组赋能东成电动工具 无边界割草机器人实现智能化升级2025第七届零售银行领导者年会圆满落幕,走进苏州农商银行研学活动成果丰硕!Cleer ARC 5音弧AI耳机发布:搭载骁龙S7+平台OpenAI 推出 macOS ChatGPT 新功能,助力编程与搜索更高效京东外卖崩了 官方致歉:超时 20 分钟订单全部免单Ainos AI 鼻成功植入ugo人形机器人,机器拥有“嗅觉”67款APP违法收集使用个人信息被通报(附完整名单)一加13T搭载满血ColorOS 15:最流畅的小屏旗舰继微软之后,亚马逊也放弃了“雄心勃勃”的 AI 数据中心计划魅族Flyme 12系统提档至5月发布 深度融合AI技术吉利雷达超级混动皮卡上海车展首发,续航超1000km
  • 首页 > 云计算频道 > 大模型

    谷歌“狙击”OpenAI,发布新一代大模型,主打Agent+多模态

    2024年12月12日 10:12:20   来源:量子位公众号

      继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了!

      就在刚刚,谷歌新一代大模型Gemini2.0突然登场,再次由谷歌CEO皮猜亲自官宣。

      新一代模型专为AI Agent而打造,谷歌表示目前已经将2.0版本提供给了一些开发者内测,正在迅速将其集成在Gemini和搜索等产品线中。

      好消息是,Gemini2.0Flash实验版模型今天就在网页端开放,大家都能玩,移动端即将推出。

      除此之外,谷歌还推出了一项名为深度研究(Deep Research)的新功能,基于高级推理和长上下文能力,它能直接帮你干研究助理的活儿——给个主题,自己出报告的那种。

      目前这个新功能在Gemini Advanced版本中可用。

      谷歌这一波出手,再结合Sora的不尽如人意,新一天的直播还没开始,已经有人开始唱衰OpenAI了:

      OpenAI的护城河是什么?

      “面向智能体时代的新AI模型”

      在谷歌CEO皮猜、Google DeepMind CEO哈萨比斯,以及Google DeepMind CTO科雷(Koray Kavukcuoglu)三人共同撰写的博客文章中,官方给Gemini2.0的定位是:

      面向智能体时代的AI模型。

      在多模态方面的新进展,以及原生工具的使用,使我们能够构建新的AI智能体,以更接近实现通用助手的愿景。

      具体如何体现?在Gemini2.0Flash实验版第一时间上线的同时,谷歌还在Gemini Advanced中推出了一项名为深度研究(Deep Research)的智能体新功能。

      你可以把它当成以研究助理,围绕一个复杂主题生成研究报告。有点像是个科研版AI搜索

      另外一个Gemini2.0的重点关键词是:多模态

      2.0Flash实验版除了支持图像、视频、音频多模态输入,还支持多模态输出。

      不单单是简单的图文混排,可控的多语种文本到语音(TTS)输出也行,还能直接本地调用工具,比如谷歌搜索、代码工具、第三方用户定义的功能。

      有ChatGPT插件那味儿了。

      不过,作为实验模型,其文本到语音和原生图像生成功能目前仅提供给早期访问合作伙伴。谷歌透露2.0Flash将在1月份正式推出,会提供更多不同大小的模型。

      而根据谷歌发布的基准测试结果,不论是在多模态的图片、视频能力上,还是编码、数学等能力上,仅是Flash实验版的Gemini2.0表现就已几乎全面超越Gemini1.5Pro002。

      而且它的速度是1.5Pro的两倍。

      谷歌表示,明年年初,会将Gemini2.0扩展到更多旗下产品中,比如Project Astra。

      就是I/O大会上谷歌推出来跟GPT-4o的语音功能打擂台的那个。

      此次,基于Gemini2.0,Project Astra更新了以下功能

      更好的对话:现在能够以多种语言和混合语言进行对话,更好地理解口音和不常见的单词。

      使用新工具:Project Astra会用谷歌搜索、Lens和地图了。

      更强的记忆力:Project Astra现在拥有10分钟的会话记忆,并且可以记住更多历史对话,也就说,凭借这些“记忆”,它能更懂你了。

      改进延迟:Project Astra可以按正常人类对话的节奏来理解对话。

      谷歌还提到,正在将Project Astra移植到眼镜等更多移动终端中。

      另外,谷歌透露,他们正在和Supercell等游戏开发商合作,测试基于Gemini2.0打造的游戏智能体们的实力。

      这些智能体可以根据屏幕上的动作对游戏进行推理,并与玩家实时对话提供行动建议。

      玩《突击小队》、《部落冲突》、《农场日记》,场面belike:

      除了网页端可用,Gemini2.0Flash实验模型还通过Google AI Studio和Vertex AI的Gemini API向开发者提供。

      从OpenAI跳槽到谷歌的Logan Kilpatrick表示,他们在Google AI Studio中创建了一个全新体验,展示了Gemini2.0视频理解、原生工具使用、空间理解的入门应用。

      那么,你觉得这够Agent吗?

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    明火炊具市场:三季度健康属性贯穿全类目

    奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    华硕ProArt创艺27 Pro PA279CRV显示器,高能实力,创

    华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。