IT之家的小伙伴们可能都有设想过,如果用 AI 生成的结果来训练 AI,进行“套娃式训练”,能得到什么样的结果?目前还真有研究团队对此进行了观察记录,详细论文及得出的结果发表在了 arXiv 上。
一句话总结 —— “在训练中使用模型生成的内容,将导致后续生成的模型出现不可逆转的缺陷”,说人话就是研究人员发现“用 AI 生成的结果训练 AI,只会让模型变得越来越差”。
据悉,研究人员专门研究了 AI 生成模型的概率分布,主要围绕“文本到文本”和“图像到图像”展开,最终得出结论:“由于每个模型生成的结果都具有一定的特点,因此用 AI 生成的模型训练 AI,随着时间的推移,后者会忘记真正的底层数据分布。”
论文的主要作者之一 Ilia Shumailov 同时表示“随着时间的推移,生成数据中的错误(IT之家注:例如虚假举例)会迫使 AI 进一步错误地感知现实,我们惊讶地观察到模型崩溃发生的速度相当快,模型可以迅速忘记他们最初从中学习的大部分原始数据。”
但小伙伴们可能会有所疑问,如果将 AI 生成的结果经过人工润色后再投入模型训练,是否可以避免模型“退化”?
答案是否定的,研究人员发现“模型退化过程是不可避免的”,因此即使对于“经过润色后理想化的 AI 输出内容”,模型在长期学习后,也会出现一定的退化现象。
对于任何大模型而言,由于其学习数据过多,它们都将不可避免地接触到其他 AI 生成的数据,因此研究人员表示“应当引入 AI 鉴定来挑出可能存在错误的学习数据”以提升模型的学习能力与准确性。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。