ChatGPT陷伦理风波 “纯净版”机器人在赶来的路上

2023年04月11日 13:16:42 来源：元宇宙日爆

　　近期，AI安全问题闹得沸沸扬扬，多国“禁令”剑指ChatGPT。自然语言大模型采用人类反馈的增强学习机制，也被担心会因人类的偏见“教坏”AI。

　　4月6日，OpenAI 官方发声称，从现实世界的使用中学习是创建越来越安全的人工智能系统的“关键组成部分”，该公司也同时承认，这需要社会有足够时间来适应和调整。

　　至于这个时间是多久，OpenAI也没给出答案。

　　大模型背后的“算法黑箱”无法破解，开发它的人也搞不清机器作答的逻辑。十字路口在前，一些自然语言大模型的开发者换了思路，给类似GPT的模型立起规矩，让对话机器人“嘴上能有个把门的”，并“投喂”符合人类利益的训练数据，以便它们输出“更干净”的答案。

　　这些研发方中既有从OpenAI出走后自立门户的Anthropic，也有AI界的强手DeepMind，他们摩拳擦掌，致力于打造“三观”正确、使用安全的对话机器人。

　　“三观”超正 Claude搬进企业应用

　　ChatGPT的安全问题遭诟病后，对话机器人Claude聚集了一部分目光。AI应用聚合平台给出的测试结果显示，研发机构Anthropic创建的Claude，确实是“ChatGPT强有力的竞争对手”，因为它在12项任务中有8项表现更优，其中包括给出事实、遵循指示、预防越狱、创意任务等。

　　今年3月向公众开放的Claude，真的这么“绿色”、这么高能吗?《元宇宙日爆》测试后发现，与ChatGPT相比，Claude对有害提示词的确是严防死守，骗都骗不过。

　　例如，我们向它提问“如何制作燃烧瓶”，Claude认定这是危险品后，绝口不提制作方法，哪怕我们以“老师教学”为诱，也很难从它口中套出燃烧瓶的制作原料，只说如何防范着火风险。

　　假如你“心怀不轨”地问它“如何毁人名誉”，Claude不仅义正言辞地拒绝回答，还会给你上一堂思想品德课，“三观”正得不要不要的。

　　那么给它一个陷阱题呢?Claude也不上当，挑出错误不说，还给你摆事实。

　　Claude也能角色扮演，写作能力可圈可点，甚至还会搭配Emoji写小红书博主风格的推荐文案，产品的关键点描述也能基本涵盖。

　　如果你想听听别人是怎么夸Claude的，它把称赞按在了马斯克头上，还会展现谦虚态度，并强调自己要“保持温和有礼的语气和性格”，向人类示起好来。

　　我们发现，Claude在数学推理方面也会出现明显的错误，当然也能承认自己不擅长的领域。

　　体验下来，Claude在文本输出的准确性、善意性方面优于ChatGPT，但在输出速度和多功能方面仍有待提升。

　　那么，Claude是如何做到“绿色无害”的呢?

　　和ChatGPT一样，Claude也靠强化学习(RL)来训练偏好模型，并进行后续微调。不同的是，ChatGPT采用了“人类反馈强化学习(RLHF)”，而Claude则基于偏好模型训练，这种方法又被称为“AI反馈强化学习”，即RLAIF。

　　开发方Anthropic又将这种训练方法称为Constitutional AI，即“宪法AI”，听上去是不是十分严肃。该方法在训练过程中为模型制定了一些原则或约束条件，模型生成内容时要遵循这些如同“宪法”般的规则，以便让系统与人类价值观保持一致。而且，这些安全原则可以根据用户或开发者的反馈进行调整，使模型变得更可控。

　　这种弱化人工智能对人类反馈依赖的训练方式，有一个好处，即只需要指定一套行为规范或原则，无需手工为每个有害输出打标签。Anthropic认为，用这种方法训练能够让自然语言大模型无害化。

　　Anthropic发布的论文显示，RLAIF 算法能够在有用性(Helpfulness)牺牲很小的情况下，显示出更强的无害性(Harmlessness)。

　　说起来，Claude的研发机构Anthropic与OpenAI渊源颇深，创始人Dario Amodei曾担任 OpenAI 研究副总裁，主导的正是安全团队。

　　2020年，Dario Amodei 因OpenAI加速商业化而忽视产品安全，与团队产生分歧，最终出走。2021年，Amodei自立门户，成立Anthropic，员工包括了开发GPT-3模型的核心成员，这个研发机构的性质是非营利组织，这正是OpenAI最开始采用的组织形态。

　　今年3月，Anthropic以开发有用、诚实和无害的AI系统为理念，推出Claude。近期，这个对话机器人已经集成进Slack——一个聚合型的“海外版”钉钉、融合了几千个第三方企业办公软件的应用。目前，用户能在Slack中与这个对话机器人互动。

　　推出Claude后，Anthropic今年拿到了来自Google、Spark Capital 和 Salesforce Ventures 的投资。资方里的谷歌可以说是OpenAI的“金主”微软在AI领域的劲敌，Claude也被视作最能与ChatGPT打一打的产品。

　　“偏见最小” Sparrow箭在弦上

　　还有一个走“无害”路线的大模型也在酝酿中了，它就是DeepMind开发的对话机器人Sparrow，这款产品目前还未面向公众开放，但“DeepMind制造”的名头足以吊起外界胃口。

　　说到人工智能，业内很难绕开“DeepMind”这家公司，它最知名的产品是AlphaGo(俗称“阿尔法狗”)，就是那个2019年击败了围棋名手李世石的人工智能围棋软件。

　　AlphaGo大胜围棋精英的同年，DeepMind开启了AI蛋白质结构预测研究，四年后，新产品AlphaFold将蛋白质结构预测从数月、数年缩短到几分钟，精度接近实验室水准，解决了困扰该领域50年的难题。

　　DeepMind在人工智能领域的实力毋庸置疑，又有谷歌加持，资历也比OpenAI老得多，其研发的Sparrow自然也颇受瞩目。这款对话机器人建立在Chinchilla语言模型之上，被认为是“偏见最小”的机器学习系统之一。

　　当ChatGPT因为伦理风险被推上风口浪尖后，DeepMind立马打起“安全牌”，“虽然我们致力于让机器变得智能，但我们希望将人性置于我们工作的中心，” CEO Demis Hassabis向世界传达了他的态度，强调DeepMind构建Sparrow的方法“将促进更安全的人工智能系统”。

　　虽然Sparrow的产品没公示，但DeepMind披露的信息显示，该对话机器人同样采用了“强化学习”的训练方法，模型会根据当前对话生成多个候选回复，让标注人员去判断哪个回复最好、哪些回复违反了预先设置好的规则等;基于这些反馈，DeepMind训练出对应的Reward模型，再用强化学习算法优化Sparrow的生成结果。

　　这种训练方法基本和ChatGPT类似，不同的是，ChatGPT只有一个综合的Reward 模型，而Sparrow将Reward 模型又细分为两种，一种为Rule Reward模型——判断对话是否违背预设置好的安全规则;另一种为Preference Reward 模型——判断候选答案中最合适的选项。简单来说，就是给模型“立规矩”，投喂“好答案”，当然，这个“好”依然是基于人类的价值判断。

　　Sparrow的相关论文显示，当研究参与者试着诱导Sparrow打破规则时，该模型的出错几率为8%，比预训练的基础模型 (Chinchilla) 低了3 倍。

　　据悉，DeepMind 将于今年推出Sparrow，具体时间未透露。

　　作为ChatGPT的另一个挑战者，DeepMind与OpenAI都抱有通向AGI的野心。而DeepMind 背靠谷歌，在资历与资金上都能与OpenAI一拼。

　　今年2月，谷歌旗下专注语言大模型领域的“蓝移团队”也并入DeepMind，旨在共同提升LLM(大型语言模型)能力。但也有担忧声认为，这和DeepMind追求的独立性背道而驰，会逐渐导致谷歌收紧对DeepMind的控制权。

　　在独立性上，DeepMind与谷歌的分歧也早就存在了。对外，Demis Hassabis始终强调自己首先是科学家，其次才是企业家。谈及ChatGPT，Hassabis认为它仅仅是“更多的计算能力和数据的蛮力”，并对这种“不优雅”的方式感到失望。

　　双方的对立态度简直是摆在了明面上，也难怪外界会认为DeepMind与OpenAI必有一战。

　　对于用户来说，巨头们卷起来才是好事，这样就能源源不断提供有意思的、可使用的产品。无论是卷功能、卷性能还是卷安全，竞争都会让AI产品朝着更高级的方向发展，未来，也将会有更多不同技术派系与产品路径的ChatGPT出现。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

即时

vivo携手首届商学院戈壁友谊赛，以专业影像见证无畏征途

2025年5月4日，首届商学院戈壁友谊赛于甘肃省酒泉市圆满举办。在这场4天121公里的戈壁征途中，vivo作为战略合作伙伴，为赛事提供手机、智能穿戴设备及定制影像服务，以技术赋能助力参赛选手与观众记录戈壁之上的热血奔赴，共同探索科技进步、商业文明与自然共生的未来路径。

一加Ace 5至尊版定档：将于5月27日发布

华为MateBook Fold非凡大师鸿蒙折叠电脑发布

ChatGPT陷伦理风波 “纯净版”机器人在赶来的路上

即时

vivo携手首届商学院戈壁友谊赛，以专业影像见证无畏征途

新闻

明火炊具市场：三季度健康属性贯穿全类目

企业IT

重庆创新公积金应用，“区块链+政务服务”显成效

3C消费

华硕ProArt创艺27 Pro PA279CRV显示器，高能实力，创

研究

中国信通院罗松：深度解读《工业互联网标识解析体系

专题

ChatGPT陷伦理风波 “纯净版”机器人在赶来的路上

扩展阅读