1月19日 消息:随着自然语言处理和自然语言生成的进步,大型语言模型(LLMs)在实际应用中得到了广泛使用。由于它们能够模仿人类行为,并具有通用性,这些模型已经涉足各个领域。
虽然这些模型引起了相当大的关注,但它们代表了一组受限和偏向的人类观点和知识。预训练数据的组成是造成这种偏见的原因,因为它对模型的行为产生了重大影响。
研究人员一直在努力着重理解和记录在预训练之前对数据所做的转换。预训练数据的筛选是一个多步骤的过程,其中有多个决策点,这些决策点通常基于主观的文本质量判断或与基准测试的性能。
最近,来自艾伦人工智能研究所、加利福尼亚大学伯克利分校、埃默里大学、卡内基梅隆大学和华盛顿大学的研究人员介绍了一个名为 AboutMe 的新数据集和框架。该研究强调了数据筛选工作流中存在的许多未经质疑的假设。通过 AboutMe,研究团队试图记录对社会和地理背景相关的文本进行数据过滤的影响。
在自然语言处理中,缺乏与语言数据相关联的广泛的自我报告社会人口学数据是一个问题。文本可以追溯到维基百科等一般来源,但在更细粒度的层面上,通常不知道谁创建了这些信息。在这项研究中,研究团队利用 Web 数据中的预设模式,找到了网站,特别是 “关于我” 页面。这使得我们可以对被网络爬虫获取的文本中所代表的语言的创作者有前所未有的了解。
研究人员将网络文本(一种流行的预训练数据源)与其社会和地理背景联系起来。研究团队使用来自网站的 “关于我” 部分的数据,进行社会语言学分析,测量了网站作者的兴趣、社会角色、关联地理位置等。他们创建了一个包含1030万个网站创建者自我描述的新数据集,并提取有关他们是谁、来自哪里的信息:他们的主题兴趣、社会角色和地理归属。
然后,他们对这些网页应用了之前在 LLM 开发研究中使用的十个质量和英语 ID 过滤器,以检查过滤对保留或删除页面的影响。
研究团队表示,他们的主要目标是发现在过滤器内部和之间,与网站来源相关的行为趋势。结果显示,基于模型的质量过滤器显示出对特定主题领域的隐含偏好,导致与各种专业和职业相关的文本以不同的比率被删除。此外,那些假设页面是单语言的过滤技术可能无意中删除了来自非英语地区的内容。
这项研究突显了 LLM 开发过程中数据筛选的复杂性以及对语言模型中各种观点呈现的影响。该研究的主要目标是提高人们对预训练数据筛选程序的细节的认识,尤其是在考虑社会因素时。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。
近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。