冰箱市场微增 各大品牌半年报中展露锋芒8月我国电视整机出货量环比上升27.%,整年依然面临增长压力WiFi万能钥匙助力亿万网民免费连网,持续加速中国互联网普及率提升三星Galaxy Z Fold特别版手机渲染图曝光,后盖预计为拉丝工艺谷歌AlphaProteo AI模型登场:突破蛋白质结合剂设计挑战,献给人类的厚礼“端侧ChatGPT时刻到来”,面壁智能推出小钢炮开源MiniCPM3-4B AI模型合合信息扫描全能王‘扫描书籍’功能革新阅读体验 助力读者深读老舍《离婚》Deepseek AI模型升级推出2.5版:合并Coder和Chat,对齐人类偏好、优化写作任务和指令跟随等苹果批准微信为iPhone 16更新 为谈判争取时间OPPO Find X8系列续航稳了!全系采用冰川电池:与宁德时代联合打造真我GT6成王者荣耀高校联赛指定用机,游戏神机燃爆开学季华为云828营销季云上云下一体化安全解决方案,为企业筑牢云上“安全网”大模型公司对标:中国电信中国移动建成全球运营商最大单集群智算中心:超1.8万张国产GPU守护绿色出行 ,南城云趣为大兴多个社区安装电动车充电安全云平台穹彻智能完成累计数亿元的天使轮和Pre-A轮融资“深耕零售 共赢未来”2024九讯云合作伙伴大会在昆召开人形机器人的确定性在哪?索尼家用投影机P9发布:原生4K激光投影荣耀Magic V3全球发布:售价1999欧元
  • 谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议

    2024年07月15日 15:27:04   来源:量子位公众号

      大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind

      “原告”直接怒喷:他们就是把我们的技术报告洗了一遍!

      具体是这么个事儿:

      谷歌DeepMind一篇中了顶流新生代会议CoLM2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

      两篇论文探讨的都是一种规范模型文本生成结构的方法。

      抓马的是,谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。

      然鹅,即便是标明了引用,“原告”的两位论文作者Brandon T. Willard(布兰登)和R´emi Louf(雷米)还是坚称谷歌抄袭,并认为:

      谷歌对两者差异性的表述“简直荒谬”。

      而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?

      唯一区别是换了概念?

      赶紧瞅一眼论文对比……

      两篇论文的比较

      先浅看一眼两篇论文的摘要对比。

      谷歌DeepMind的论文说的是,tokenization给约束语言模型输出带来了麻烦,他们引入自动机理论来解决这些问题,核心是避免在每个解码步骤遍历所有逻辑值(logits)。

      该方法只需要访问每个token的解码逻辑值,计算与语言模型的大小无关,高效且易用于几乎所有语言模型架构。

      而“原告”的说法大致是:

      提出了一个高效框架,通过在语言模型的词汇表上构建索引,来大幅提升约束文本生成的效率。简单来说,就是通过索引避免对全部逻辑值的遍历

      同样“不依赖于具体模型”。

      方向上确实大差不差,我们还是接着来看看更多详细内容。

      我们用谷歌Gemini1.5Pro分别总结了两篇论文的主要内容,并接着让Gemini来比较两者的异同。

      对于“被告”谷歌这篇论文,Gemini总结其方法是将detokenization重新定义为有限状态转换器(FST)操作

      将此FST与表示目标形式语言的自动机组合,这种自动机可以用正则表达式或语法来表示。

      通过以上结合,生成一个基于token的自动机,用于在解码过程中约束语言模型,确保其输出的文本符合预设的形式语言规范。

      此外,谷歌论文中还进行了一系列正则表达式扩展,这些扩展通过使用特别命名的捕获组来编写,显著提升了系统处理文本时的效率和表达能力。

      而对于“原告”论文,Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机(FSM)之间的转换

      “原告”的具体方法是:

      利用正则表达式或上下文无关文法构建FSM,并将其用于指导文本生成过程。

      通过构建词汇表索引,高效地确定每个步骤中的有效词,避免遍历整个词汇表。

      Gemini列出了两篇论文的共同点。

      至于两者的区别,有点像前头那位网友说的,简单总结就是:谷歌将词汇表定义为了一个FST。

      前面也说到了,谷歌在“Related work”中将原告论文列为“最相关”的一项工作:

      最相关的研究是Outlines(Willard&Louf,2023),该研究同样采用有限状态自动机(FSA)和下推自动机(PDA)作为约束手段——我们的方法是在2023年初独立开发的。

      谷歌认为两者的差异在于,Outlines的方法基于一种特制的“索引”操作,需要手动扩展到新的应用场景。相比之下,谷歌使用自动机理论彻底重新定义了整个过程,使得应用FSA和泛化到PDA变得更加容易。

      另一个区别是,谷歌定义了扩展以支持通配符匹配,并提高了可用性。

      谷歌紧接着在介绍下面的两项相关工作中,也都提到了Outlines。

      一项是Yin等人(2024年)通过增加“压缩”文本段到预填充的功能,扩展了Outlines。

      另一项是Ugare等人(2024年)近期提出的一个系统,名为SynCode。它也利用FSA,但采用LALR和LR解析器而非PDA处理语法。

      与Outlines类似,该方法依赖于定制算法。

      但吃瓜群众们显然不是很买账:

      CoLM的评审们应该注意。我不认为这看上去是各自独立的“同期工作”。

      网友:这事儿不罕见…

      这件事一发酵,不少网友都怒了,抄袭可耻,更何况“科技巨头剽窃小团队的工作成果不是第一次了”。

      顺便一提,布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作,这家AI Infra公司成立于2022年。

      哦对了,Normal Computing的创始团队有一部分就来自Google Brain……

      另外,布兰登和雷米现在合伙出来创业了,新公司名叫.txt,官网信息显示,其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页,就是Outlines仓库。

      说回到网友这边,更让大家伙儿生气的是,“这种情况已经变得普遍”。

      一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:

      去年10月我们完成了一项工作,最近有篇已被接收的论文采用了相同的思路和概念,但甚至没有引用我们的论文。

      还有一位美国东北大学的老哥更惨,这种情况他遭遇过两次,下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……

      不过,也有网友表达了不同的意见:

      如果说发个博客文章或未经评估的预印本论文就算占坑了,那人人都会占坑,不是吗?

      对此,雷米怒怼:

      好家伙,发布预印本论文并开源代码 = 占坑;

      写篇数学论文,甚至不需要任何伪代码 = 好工作???

      布兰登老哥也表示yue了:

      开源代码并撰写相关论文是“占坑”,复制别人的工作却说“我更早有了这个想法”且投稿了会议反而不是啦?真恶心。

      瓜就先吃到这里,对此你有什么想法?不妨在评论区继续讨论~

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    即时

    新闻

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。