森海塞尔 Smart Control App全新升级,开启更强无线新时代华为手机国庆出游秘籍大公开:六个技巧带你玩转“华”样假期穿越古今,探索中轴线中的科学——相约科普日,开启科普旅程!AI创新实力引关注,中关村科金携大模型先进实践亮相2024服贸会推动发明专利落地应用,高通携手合作伙伴将5G扩展到更多行业2024开放原子开源生态大会 | 深度融合创新,加速技术创新与产业转型步伐潮领科技,炫启新声 JBL携手赵露思开启绮「思」妙「响」长城夜C919 首次飞抵拉萨,国产商用飞机相聚青藏高原我国启动可持续航空燃料应用试点,今日起 12 个航班加注三星代工被曝年底前启动重组:打破部门壁垒,提高部门协作湖北省域战略规划公布:全面建设城市数字公共基础设施,创建国家算力网络中部枢纽泳池智能清洁机器人研发商星迈创新完成数亿元A轮融资御风未来宣布完成Pre-B轮融资,深度布局两大湾区19999元起明天开售!华为Mate XT三折叠最后一天预约:超643万人想买苹果开放iPhone 16系列员工购买通道 郭明錤:销量低于预期证据对标华为!曝荣耀将量产三折叠屏:技术储备不是问题控车更方便!小米澎湃OS上线SU7桌面小部件阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!人均融资1亿美元,一个有故事可讲的AI赛道智能体时代,AI正从“神坛”走向“人间”
  • 首页 > 云计算频道 > 大模型

    贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样

    2024年08月02日 09:49:31   来源:量子位公众号

      Transformer大模型尺寸变化,正在重走CNN的老路!

      看到大家都被LLaMA3.1吸引了注意力,贾扬清发出如此感慨。

      拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:

      在ImageNet时代,研究人员和技术从业者见证了参数规模的快速增长,然后又开始转向更小、更高效的模型。

      听起来,是不是和GPT哐哐往上卷模型参数,业界普遍认同Scaling Law,然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma2B如出一辙?

      贾扬清笑称,“这是前大模型时代的事儿,很多人可能都不咋记得了:)”。

      而且,贾扬清不是唯一一个感知到这一点的人,AI大神卡帕西也这么觉得:

      大模型尺寸的竞争正在加剧……但是卷的方向反着来了!

      模型必须先追求“更大”,然后才能追求“更小”,因为我们需要这个过程,帮咱把训练数据重构成理想的、合成的格式。

      他甚至拍着胸脯打赌,表示我们一定能看到又好、又能可靠地思考的模型。

      而且是参数规模很小很小的那种。

      连马斯克都在卡帕西的评论区连连称是:

      以上,大概可以称之为“大佬所见略同”。

      展开说说

      贾扬清的感慨,要从只在最强王座上短暂待了一天的LLaMA3.1说起。

      那是首次实现“最强开源模型=最强模型”,不出意外,万众瞩目。

      However,贾扬清在这个时候提出了一个观点:

      “但我认为,行业会因小型垂直模型而真正蓬勃发展。”

      至于啥是小型垂直模型,贾扬清也说得很清楚,比如以Patrouns AI的Iynx(该公司的幻觉检测模型,在幻觉任务上超过GPT-4o)为代表的那些很棒的中小模型。

      贾扬清表示,就个人喜好而言,他本人是非常喜欢千亿参数模型的。

      但现实情况里,他观察留意到,7B-70B参数规模之间的大模型,大家用起来更顺手:

      它们更容易托管,不需要巨大的流量即可盈利;

      只要提出明确的问题,就能得到质量还不错的输出——与和之前的一些看法相反。

      与此同时,他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。

      “如果我的理解是正确的,那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点,“即在现实世界中,使用适用的、具有成本效益、且仍然强大的模型。”

      于是乎,贾扬清简单梳理了CNN的发展历程。

      首先,是CNN的崛起时代。

      以AlexNet(2012)为起点,开启了大约三年的模型规模增长时期。

      2014年出现的VGGNet就是一个性能和规模都非常强大的模型。

      其次,是缩小规模时期。

      2015年,GoogleNet把模型大小从“GB”缩小到了“MB”级别,即缩小了100倍;但模型性能并没有因此骤减,反而保持了不错的性能。

      遵循类似趋势的还有2015年面世的SqueezeNet模型等。

      然后的一段时间,发展重点在追求平衡。

      后续研究,如ResNet(2015)、ResNeXT(2016)等,都保持了一个适中的模型规模。

      值得注意的是,模型规模的控制并没有带来计算量的减少——其实,大伙儿都愿意投入更多的计算资源,寻求一种“同等参数但更高效”的状态。

      紧接着就是CNN在端侧起舞的一段时期。

      举个例子,MobileNet是谷歌在2017年推出的一项有趣的工作。

      有趣就有趣在它占用的资源超级少,但是性能却非常优异。

      就在上周,还有人跟贾扬清提到:“Wow~我们现在还在用MobileNet,因为它可以在设备上运行,而且在出色的特征嵌入泛化(Feature Embedding Generality)。”

      最后,贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图:

      并再一次发出自己的疑问:

      大模型尺寸,会遵循与CNN时代相同的趋势来发展吗?

      网友怎么看?

      其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。

      当上述几位表达出这样的观点后,立马有人点头如捣蒜,还拿出了一些别的类似例子,证明他们看到了相同的趋势。

      有人立马跟上:

      我这儿有个新的正面例子!Gemma-2就是把27B参数大小的模型知识蒸馏成更小的版本。

      还有网友表示,开发更大的模型,意味着能给后续几代更小、更垂直的模型的训练“上强度”。

      这个迭代过程最终会产生所谓的“完美训练集”。

      这样一来,较小的大模型在特定领域,能与现在参数巨大的大模型一样聪明,甚至更聪明。

      一言以蔽之,模型必须先变大,然后才能变小。

      大多数讨论此观点的人,还是对这个趋势比较认同,有人直言“这是一件好事,比‘我的模型比你的模型大’参数竞赛更实用和有用。”

      但是,当然了!

      翻遍网络评论区,也有人发出不同的声音。

      比如下面这位朋友就在贾扬清推文底下留言:

      Mistral Large(背后公司Mistral AI)、LLaMA3.1(背后公司Meta)和OpenAI,持有最强竞争力模型的公司,目前可能都正在训练更大的模型。

      我没发现有“更小型号模型搞定技术突破”的趋势哟。

      面对这个问题,贾扬清倒也及时回复了。

      他是这么说的:“没错!我说大模型尺寸可能在走CNN的老路,绝对不意味着号召大家停止训练更大的模型。”

      他进一步解释道,这么说的本意是,随着技术(包括CNN和大模型)落地实践越来越广,大家已经开始越来越关注性价比更高的模型了。”

      所以,或许更高效的小·大模型,能够重新定义AI的“智能”,挑战“越大越好”的假设。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    TCL实业荣获IFA2024多项大奖,展示全球科技创新力量

    近日,德国柏林国际电子消费品展览会(IFA2024)隆重举办。凭借在核心技术、产品设计及应用方面的创新变革,全球领先的智能终端企业TCL实业成功斩获两项“IFA全球产品设计创新大奖”金奖,有力证明了其在全球市场的强大影响力。

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。