Falcon
date
Jun 20, 2024
slug
falcon
status
Published
tags
AI
Paper
LLM
summary
数据清洗的步骤和效果⭐
type
Post
研究背景
LLM通常是在过滤后的Web数据和精选的高质量语料库(社交媒体对话、书籍或技术论文)进行训练,而这些高质量数据集是有限的,每个来源都需要人工处理,产生的数据量有限。而且训练时获得许可也是个挑战。(比如,Google就不能拿YouTube的数据来训练,即使大家都在用这些数据,即使Google很早就收购了YouTube。)
根据Scaling Law,数据集越大,模型性能越好。大规模网络爬虫能获取大量的数据,但是传统认为,这些数据质量被认为远不如手动整理的数据源,即使网络数据源也接受过精细处理。
这篇论文就是为了在对数据需求越来越大的背景下,简化数据Pipelines,探索如何更好地处理Web数据来显著提高质量,并且让模型性能在精选语料数据集一样,甚至更强大。
Insights
- 研究团队引入了RefinedWeb,一个高质量的5万亿tokens的纯Web英语预训练数据集;
- 并且证明了,仅Web数据就可以使模型性能优于公共和私人策划的语料库,正如零样本基准所捕获的哪有,向西当前关于数据质量的观点发起了挑战;
- 研究团队公开发布了从RefinedWeb里提取的600B tokens,和在其上训练的1/7B参数的LLMs,作为NLP社区的高质量Web数据集新基线。
现阶段的Web数据Pipelines
现在的海量网络数据是建立在CommonCrawl上,这个公开可用的互联网抓取已经运行了12年,并收集了PB级的数据。难点是在于数据处理,因为很大一部分是低质量的机器生成的垃圾邮件或有毒内容(特别是现在,AI生成的内容大量充斥在网络上,属于是垃圾),这些对模型性能的是不良影响。
现阶段的pipelines专注于过滤这些不需要的内容。
广义上讲,主要包含:语言识别、过滤规则和启发式方法、基于ML的质量过滤、重复数据删除。
但是过渡的过滤可能会在模型中引入不良偏差,这导致对少数群体产生过度影响。这就促使采用了伪抓取等做法,比如url手动设置。
重复数据删除
这里是指从数据集中删除重复的数据提取和文档,这些数据提取和文档可以是完全匹配的,每个字符都相同,也可以是基于某些相似性指标的近似匹配。
而且重复数据删除这个工作已经被证明对模型质量的危害越来越大。
三种方式扩展数据集
- 聚合和组合跨多个pipeline进行文档准备和过滤最佳实践,并且引入了逐行校正;
- 在大规模的数据集上结合了精确和模糊重复数据删除;
- 最终数据集规模是5000B tokens,和600B开放使用;
新的Web数据Pipelines——MDR管道
MDR(MacroData Refinement),用于大规模过滤和删除来自CommonCrawl的Web数据pipelines,利用严格的过滤和严格的重复数据删除来提升Web数据的质量,将其提炼成用于训练最先进的聚合语料库质量相匹配的语料库。
主要的设计原则是:先扩展,后严格的重复数据删除,再中性过滤(避免在语言识别之外使用基于ML的过滤,坚持简单的规则和启发式方法,仅对成人内容使用URL过滤)。
(完整的数据管道)
文档准备:主要包括读取数据、过滤URL、提取文本、语言识别
过滤: 逐文档和逐行
重复数据删除:模糊重复数据删除、精确重复数据删除和URL重复数据删除。
![[Pasted image 20240620112254.png]]
从上述数据看到,后续阶段都删除了最中近90%的文档,但过滤和重复数据都会导致可用数据减半。
其余部分
文章其余部分验证了RefinedWeb可用于训练强大的模型,并且给出了相关方法。本次就暂不讨论。
其他
根据Scaling Law 训练模型会越来越普遍,对数据的需求只会多不会少。
在AI生成的内容污染互联网环境的情况下,如何来获取高质量数据是个有趣的值得探索的命题。
Data is All you need。