Falcon

date

Jun 20, 2024

slug

falcon

status

Published

研究背景

LLM通常是在过滤后的Web数据和精选的高质量语料库（社交媒体对话、书籍或技术论文）进行训练，而这些高质量数据集是有限的，每个来源都需要人工处理，产生的数据量有限。而且训练时获得许可也是个挑战。(比如，Google就不能拿YouTube的数据来训练，即使大家都在用这些数据，即使Google很早就收购了YouTube。)

根据Scaling Law，数据集越大，模型性能越好。大规模网络爬虫能获取大量的数据，但是传统认为，这些数据质量被认为远不如手动整理的数据源，即使网络数据源也接受过精细处理。

这篇论文就是为了在对数据需求越来越大的背景下，简化数据Pipelines，探索如何更好地处理Web数据来显著提高质量，并且让模型性能在精选语料数据集一样，甚至更强大。

Insights

研究团队引入了RefinedWeb，一个高质量的5万亿tokens的纯Web英语预训练数据集；

并且证明了，仅Web数据就可以使模型性能优于公共和私人策划的语料库，正如零样本基准所捕获的哪有，向西当前关于数据质量的观点发起了挑战；

研究团队公开发布了从RefinedWeb里提取的600B tokens，和在其上训练的1/7B参数的LLMs，作为NLP社区的高质量Web数据集新基线。

现阶段的Web数据Pipelines

现在的海量网络数据是建立在CommonCrawl上，这个公开可用的互联网抓取已经运行了12年，并收集了PB级的数据。难点是在于数据处理，因为很大一部分是低质量的机器生成的垃圾邮件或有毒内容（特别是现在，AI生成的内容大量充斥在网络上，属于是垃圾），这些对模型性能的是不良影响。现阶段的pipelines专注于过滤这些不需要的内容。广义上讲，主要包含：语言识别、过滤规则和启发式方法、基于ML的质量过滤、重复数据删除。但是过渡的过滤可能会在模型中引入不良偏差，这导致对少数群体产生过度影响。这就促使采用了伪抓取等做法，比如url手动设置。

重复数据删除

这里是指从数据集中删除重复的数据提取和文档，这些数据提取和文档可以是完全匹配的，每个字符都相同，也可以是基于某些相似性指标的近似匹配。而且重复数据删除这个工作已经被证明对模型质量的危害越来越大。

三种方式扩展数据集

聚合和组合跨多个pipeline进行文档准备和过滤最佳实践，并且引入了逐行校正；

在大规模的数据集上结合了精确和模糊重复数据删除；

最终数据集规模是5000B tokens，和600B开放使用；

新的Web数据Pipelines——MDR管道

MDR（MacroData Refinement），用于大规模过滤和删除来自CommonCrawl的Web数据pipelines，利用严格的过滤和严格的重复数据删除来提升Web数据的质量，将其提炼成用于训练最先进的聚合语料库质量相匹配的语料库。主要的设计原则是：先扩展，后严格的重复数据删除，再中性过滤（避免在语言识别之外使用基于ML的过滤，坚持简单的规则和启发式方法，仅对成人内容使用URL过滤）。

（完整的数据管道） 文档准备：主要包括读取数据、过滤URL、提取文本、语言识别 过滤： 逐文档和逐行 重复数据删除：模糊重复数据删除、精确重复数据删除和URL重复数据删除。 ![[Pasted image 20240620112254.png]] 从上述数据看到，后续阶段都删除了最中近90%的文档，但过滤和重复数据都会导致可用数据减半。

其余部分

文章其余部分验证了RefinedWeb可用于训练强大的模型，并且给出了相关方法。本次就暂不讨论。

其他

根据Scaling Law 训练模型会越来越普遍，对数据的需求只会多不会少。在AI生成的内容污染互联网环境的情况下，如何来获取高质量数据是个有趣的值得探索的命题。 Data is All you need。