彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

谷歌DeepMind发布的JEST(联合示例选择与训练)方法通过数据质量优先策略,仅需传统方法10%的计算量和三分之一的数据量,即可实现13倍的训练效率提升。该方法使用小型教师模型评估批次数据质量,在2.7B参数模型上验证了其有效性,性能超越传统训练方法。JEST标志着大模型训练从“数据规模”向“数据效率”的范式转变。

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

谷歌DeepMind最新发布的JEST(联合示例选择与训练)方法,标志着大语言模型预训练范式的一次潜在革命。这项研究通过“数据质量优于数据数量”的核心思想,在仅用十分之一计算量和三分之一数据量的情况下,实现了比传统方法更快的训练速度和更优的模型性能,可能从根本上改变当前“暴力堆算力与数据”的行业现状。

关键要点

  • 范式颠覆:JEST方法的核心是使用一个较小的“教师”模型来评估和筛选大规模未标注数据集中质量最高的数据批次进行训练,而非随机或启发式采样。
  • 效率飞跃:在实验中,使用JEST方法训练一个2.7B参数的模型,其效率是传统方法的13倍,且最终性能超越了使用传统方法训练的模型。
  • 数据与算力双省:该方法仅需传统方法约10%的计算量三分之一的数据量,即可达到同等甚至更优的效果。
  • 开源验证:研究团队在多个开源数据集(如C4、RedPajama)上验证了JEST的有效性,表明其具备通用性。

JEST方法如何工作:从“淘金”到“炼金”

传统的大模型预训练如同在数据海洋中“广撒网”,依赖海量(通常达万亿token级别)的随机或简单过滤的数据进行训练。JEST则引入了一个精巧的两阶段“淘金-炼金”流程。

首先,研究团队利用一个相对较小、已训练好的模型(如T5 Large或一个较小的CLIP模型)作为“教师”。这个“教师”模型并不直接生成数据,而是对海量未标注数据(如网络文本、图像-文本对)进行评估和打分。其关键创新在于,评估单位不是单个数据样本,而是成批的(batch-level)数据。模型会评估一个批次数据的整体内在一致性、信息密度和与学习目标的匹配度,从而筛选出“高质量批次”。

随后,筛选出的这些高质量数据批次被用于训练目标大模型。这个过程形成了一个数据质量不断自我提升的闭环:随着目标大模型训练得越来越好,它本身又可以作为新的、更强的“教师”模型,去筛选出质量更高的数据,用于下一轮训练或训练更大的模型。这彻底改变了数据处理的逻辑,从被动接受数据分布,转向主动塑造最优的训练数据分布。

行业背景与分析

JEST的出现,直击了当前大模型发展面临的“数据墙”与“算力墙”痛点。行业此前普遍遵循OpenAI等先驱设定的“缩放定律”,即模型性能随着参数规模、数据量和计算量的增加而可预测地提升。这导致了动辄数百万美元的训练成本和近乎耗尽的高质量公开文本数据。例如,GPT-4的训练据信使用了约13万亿个token,而Llama 3的预训练数据也达到了15万亿token。

JEST代表了一种“数据效率”范式的兴起,这与另一条技术路线——MoE(混合专家)模型形成了有趣的对比。MoE(如Mixtral 8x7B、DeepSeek-V2)通过稀疏激活来降低计算成本,其核心是“计算效率”。而JEST则专注于“数据效率”,试图从源头减少所需处理的数据量。两者从不同维度挑战了传统的密集模型缩放定律。可以预见,未来的尖端模型可能会结合这两种思想。

从技术内涵看,JEST的成功印证了“数据质量”的极端重要性,这与近期其他研究(如Phi系列小模型通过“教科书级”高质量数据达到优异性能)的结论不谋而合。它也暗示,单纯追求数据规模的边际效益正在递减。一个可量化的对比是:在标准的MMLU(大规模多任务语言理解)基准测试中,使用JEST方法高效训练的模型,其性能可以媲美甚至超越使用传统方法、消耗10倍资源训练的同类规模模型。这不仅仅是成本的降低,更是研发迭代速度的指数级提升。

此外,JEST为开源社区和资源有限的玩家带来了新的战略机会。当巨头们仍在争夺最后的高质量数据存量时,JEST提供了一种方法论,使得利用相对“平庸”的公开数据池(如Common Crawl的原始数据)高效提炼出高价值训练集成为可能。这在一定程度上可以平衡与拥有私有数据护城河的公司(如拥有谷歌搜索数据、Meta社交数据的公司)之间的竞争劣势。

这意味着什么

对AI研发企业而言,尤其是算力预算有限的中小型公司和实验室,JEST是一套强大的“杠杆”。它能够显著降低大模型训练的入门门槛和试错成本,加速从研究到产品的循环。巨头公司同样可以借此大幅压缩训练成本,或将节省的资源用于探索更大的模型规模或更复杂的架构。

对数据生态的影响将更为深远。数据的价值评估体系将从简单的“清洗与过滤”升级为复杂的“质量与协同效应评估”。未来可能会出现专门用于评估批次数据质量的模型即服务(MaaS),以及围绕“高质量数据批次”构建的新市场或交易模式。数据工作的重心将从预处理转向深度分析与策划。

行业竞争格局可能因此发生微妙变化。依赖私有数据量的优势可能被数据筛选技术的优势部分抵消。在模型性能竞赛中,“算法创新”和“数据工程”的权重将再次提升,与“算力规模”并驾齐驱。

需要关注的下一个方向包括:JEST方法在超大规模(如万亿参数)模型训练上的扩展性如何?该方法对不同模态(视频、音频)数据的有效性怎样?以及,是否会催生出全新的、专门为“批次质量评估”而设计的基础模型架构?谷歌DeepMind的这项研究,或许正在开启大模型预训练的下一个黄金时代——一个比拼“巧劲”而不仅仅是“蛮力”的时代。

常见问题