吉林大学、阿里云等:为什么AI挑选训练数据时总爱“偏心“长句子?

张开发
2026/5/12 16:45:44 15 分钟阅读
吉林大学、阿里云等:为什么AI挑选训练数据时总爱“偏心“长句子?
这项由吉林大学、阿里云计算、浙江大学及密歇根大学数学系等机构联合开展的研究发表于2026年4月论文编号为arXiv:2604.06834有兴趣深入了解的读者可通过该编号查阅完整论文。一、故事从一个偷懒的老师说起假设你是一位英语老师负责从学生的作文堆里挑出写得最好的作品放进教材。你定了一条规则专找那些读起来最顺的文章——也就是说你觉得读起来越流畅、越自然的就越好。这条规则听起来没什么问题对吗然而有一天你突然发现一件奇怪的事你挑出来的优秀作文几乎全是长篇大论那种写了满满五六页的。短小精悍、直击要害的好文章反而统统被你忽略了。你回头研究了一下才发现原来自己的读起来流畅的直觉被愚弄了。长文章里有大量普通的流水句把开头那一两句拗口的、费力思考的难句稀释了。所以整体读下来感觉挺顺但其实藏着不少废话。而短文章里哪怕整体写得很精彩因为开头那几个难句占比太高整体流畅感就被拖低了。这个偷懒老师的困境正是这篇论文的核心故事——只不过那个偷懒老师换成了今天最先进的人工智能训练流程里的一个关键环节**数据筛选**。二、AI是怎么学会长篇推理的在正式讲困境之前有必要先交代一下这个故事发生的背景。近年来以DeepSeek-R1为代表的一批大推理模型横空出世让人们大开眼界——这些AI不再是简单地给出一个答案而是会一步一步、洋洋洒洒地把思考过程写出来就像一个学生解数学题时会把草稿纸写满一样。这种把推理过程写出来的能力行话叫长思维链Long Chain-of-Thought简称长CoT。要让AI学会这种能力目前最主流的做法是监督微调SFT找一个更聪明的大模型让它针对大量数学题、科学题生成解题过程然后把这些解题过程当作教材喂给一个学生模型让它照着学。问题在于更聪明的大模型生成的答案并不全是高质量的。有些解题过程绕弯子、有些步骤有错误、有些推理啰嗦冗余——这些劣质教材如果混进去会把学生模型带歪。于是**如何从一大堆候选答案里挑出最好的那些**就成了一个至关重要的问题也催生了所谓的推理数据选择这个研究方向。三、自然度评分——一个看起来很聪明的办法在各种筛选数据的方法里有一类叫做基于自然度naturalness-based的方法它的逻辑相当直观你用一个学生模型去阅读候选数据让它给每条数据打一个熟悉感分数——具体来说就是计算这个学生模型觉得这条数据有多像是自己会写出来的东西。分数越高说明这条数据越贴近学生模型的现有能力越容易被它学进去。反之分数太低说明数据对学生模型来说太陌生、太难消化学了可能适得其反。这个熟悉感分数在技术上用平均对数概率average log probability来衡量。打个比方你让AI阅读一段文字它会在心里悄悄猜测每个词出现的概率。如果一段文字里的每个词它都猜得比较准概率高说明这段文字对它来说很自然如果很多词它都没猜到概率低就说明这段文字对它来说很陌生。把所有词的概率取个平均值就得到了这条数据的自然度分数。这个思路听起来相当合理而且已经有多篇论文验证了它的有效性。代表性的方法包括直接用全局平均对数概率打分的GRACE方法以及更精细地把推理过程分段、逐段计算概率再平均的Local LP方法。然而这篇论文的研究团队在实际使用这类方法时发现了一个令人不安的现象。四、偏心的选手——步长混淆问题研究团队用这些自然度方法对一批AI生成的推理数据进行了筛选实验。他们用四个强大的推理模型包括QwQ-32B、Qwen3-32B、DeepSeek-R1-Distill-Qwen-32B和gpt-oss-120b针对800道数学题各生成了5个答案共16000份候选数据然后用自然度方法从中挑选5份最佳答案。筛选完成后他们把被选中的数据和未被选中的数据分别画出了分布图——这里重点关注的是步长step length也就是推理过程中**每一步推理包含多少个词**。结果让人大吃一惊**无论用哪种自然度方法被选中的数据里每步推理的篇幅都明显比未被选中的数据长得多**。未被选中的数据步长大多集中在30个词左右而被选中的数据步长的分布整体向右偏移充斥着每步六七十个词甚至更长的推理步骤。而且这个偏心现象在GRACE、Local LP、Min Entropy最小熵、Min Perplex最小困惑度四种方法里都一样明显。这说明这不是某一种方法的偶然失误而是自然度这类方法的系统性偏差。研究团队把这个现象命名为**步长混淆step length confounding**——意思是自然度这个指标被推理步骤的长度混淆了它实际上选的是步子长的数据而不是质量高的数据。五、为什么会这样抽丝剥茧找原因发现了问题研究团队没有满足于此而是继续追问这个偏心现象背后的真正原因是什么他们首先做了一个实验把所有推理步骤按照步长分组10个词一步、20个词一步……直到100个词以上一步然后计算每组步骤的平均对数概率。结果非常清晰**步长越长这一步的平均对数概率就越高**。而且这个规律在四个不同的大模型里都成立是一个稳定的现象不是偶然。那么为什么长步骤的平均概率会更高呢研究团队仔细查看了具体的词语概率数据注意到了一个关键细节**每一步推理的第一个词概率总是特别低**。这其实不难理解。在推理过程中每一步的开头往往是一个岔路口。比如这一步的开头可以是因此……可以是但是……可以是换个角度……可以是我们知道……可以是等等……——有很多种可能的走向AI在这里面临较大的不确定性所以任何一个具体词的概率都相对低。行话叫高熵high entropy通俗地说就是岔路口上的选择太多不好猜。但是在第一个词确定之后后续的词就顺水推舟了。因此我们得出……后面跟什么基本上就那么几种说法AI猜起来轻松得多概率自然高。现在把这两点结合起来看——对于一个**短步骤**比如只有8个词如果第一个词的对数概率是-5.48非常低而后面7个词的概率都比较高那么这8个词平均下来分母是8那个特别低的-5.48被8个数平均拉低了整体均值均值可能只有-2.15左右。对于一个**长步骤**比如有67个词同样第一个词的对数概率很低但后面66个高概率词把这个低分稀释了。分母是67那个低分只占1/67对均值的影响微乎其微最终均值可能高达-0.41。这就是研究团队在论文里展示的真实数据案例步长8的短步平均概率-2.15步长67的长步平均概率-0.41。差距悬殊但根本原因不是长步骤质量更好而是第一个词的低概率被稀释了。归根结底**步长混淆的元凶就是每步推理开头那个高熵第一词**。它概率低在短步骤里占比大就把整体分数拉低在长步骤里占比小整体分数就被托高。六、两种解法一刀切还是精准手术找到了病因研究团队设计了两种解决方案统称为ASLECAlleviating Step Length Confounding缓解步长混淆。第一种方案叫**ASLEC-DROP**思路非常直接——既然每步第一个词的概率是罪魁祸首那就在计算平均概率时把每步的第一个词直接丢掉不算。这就像你在评分时说第一句话不算从第二句开始评分。剩下的词的平均概率就不会再受到第一个词低概率的干扰自然也就消除了对步长的偏好。这种方法简洁高效没有任何额外的计算负担。但它也有一个明显的代价第一个词本身也携带信息比如推理转向的选择体现了AI的思维灵活性和推理方向感。把它直接扔掉虽然消除了偏差但也丢失了信息。于是有了第二种方案——**ASLEC-CASL**这是一种更精准的手术。它的灵感来自统计学和因果推断领域的去混淆debiasing技术。具体操作是这样的对所有候选数据同时计算三个量——第一个词的平均对数概率、其余词的平均对数概率以及第一个词占所有词的比例也就是步长的倒数步越长这个比例越小。然后用线性回归分析建立一个方程把全局平均对数概率拆解成这三部分的线性组合。通过这个方程研究团队能精确估算出第一个词比例这个混淆因子对整体分数的具体影响力——用希腊字母γ表示。最后在计算最终的筛选分数时把这个混淆影响直接从原始分数里减去得到一个去偏后的分数。打个比方ASLEC-DROP就像裁判说不算第一棒的成绩而ASLEC-CASL则是裁判先统计出第一棒对总成绩的系统性影响是多少然后在所有选手的总成绩里扣掉相应的分数让第一棒的影响回归合理水平。前者简单粗暴后者更加精细保留了第一个词携带的有用信息只是消除了它带来的偏差。七、实验数据说话效果到底怎么样研究团队在两个大型推理数据集上进行了系统测试一个是包含800道精心筛选数学题的LIMO-v2数据集另一个是来自英伟达的大规模AceReason-1.1-SFT数据集从中随机抽取了1万道数学题。他们用四个不同大小、不同系列的学生模型Qwen3-4B-Base、Qwen3-8B-Base、Qwen3-4B-Instruct、Qwen2.5-7B-Instruct进行训练并在五个评测基准上打分数学竞赛AIME24、AIME25数学题库MATH500数学奥林匹克题库OlympiadBench以及科学推理基准GPQA。结果相当令人振奋。以LIMO-v2数据集为例Qwen3-4B-Base这个学生模型用GRACE方法筛选的数据训练后在AIME24上的准确率只有16.66%用Local LP方法筛选的数据训练后提高到19.16%而用ASLEC-DROP训练后跳升到30%用ASLEC-CASL则进一步达到31.66%。在另一个测试集AIME25上改善幅度同样显著GRACE对应33.33%Local LP对应36.66%ASLEC-DROP达到43.33%ASLEC-CASL更高达46.66%。把所有模型、所有数据集、所有测试集的成绩综合平均来看ASLEC-DROP比当前最优的Local LP方法平均提升了6.28%而ASLEC-CASL则提升了9.08%——这是相当大的差距尤其考虑到这些都是高难度的竞赛题目每一个百分点都来之不易。更有意思的是研究团队还观察到两种方法在数据量较小的情况下比如LIMO-v2只有800题而AceReason有1万题效果提升更加明显。这说明数据越少、越珍贵筛选质量的影响就越大去除偏差带来的收益也越显著。研究团队还专门验证了方法确实解决了步长混淆问题本身用ASLEC-DROP和ASLEC-CASL筛选出来的数据其步长分布与未被选中的数据之间差异已经非常小——不再像原来那样选出的数据清一色是长步骤而是覆盖了更多样化的步长范围。八、数字背后的深意线性回归告诉我们什么ASLEC-CASL方法里那个拟合出来的线性回归模型其参数本身也非常有信息量。研究团队在LIMO-v2数据集上分别对四个来源模型QwQ-32B、Qwen3-32B、DS-Qwen-32B、gpt-oss-120b的生成数据各自拟合了一套参数。几个关键发现值得细说。首先是那个混淆因子的系数γ。综合所有数据的整体拟合结果γ约为-0.680。这意味着如果两条数据之间第一个词占所有词的比例相差0.05比如一条是10%另一条是15%那么这个差距导致的整体概率差异相当于每个词的概率降低了约3.34%。在四个来源模型中gpt-oss-120b生成的数据对应的γ值最高达到了-1.284——这说明这个模型生成的数据里步长混淆问题最为严重第一个词的低概率对整体评分的拉低效应最大。另一个值得注意的参数对比是β?和β?分别对应第一个词概率和其余词概率对整体分数的贡献权重。所有模型里β?都远远小于β?——以Overall整体结果为例β?约为0.066而β?约为0.944。这进一步从数学上确认了在计算整体自然度分数时第一个词的权重本来就不应该那么高现有方法隐含地给了它过高的影响力而ASLEC-CASL通过去偏操作修正了这一点。最后残差ε始终保持在接近0的水平说明线性回归的拟合误差很小去偏操作的精度是有保障的。九、总响应长度的干扰——一个意外的插曲研究团队还顺带研究了另一个相关问题总响应长度即整条推理链的总词数是否也会影响自然度筛选有趣的是实验发现答案是是但影响方向和步长正好相反而且影响程度小得多。从数据来看响应越长其末尾部分的词概率反而越高——因为随着推理的展开后续内容越来越确定AI越来越知道自己在写什么预测准确率升高。所以如果纯粹按总响应长度来分析应该是长响应更容易被选中。然而实际观察到的结果是被选中的数据平均总长度约9800词反而比未被选中的约15400词短得多这个看似矛盾的现象其实正是步长混淆在作怪——步长混淆的效果如此强烈以至于彻底压过了总响应长度本身的影响把选择方向反转了。研究团队还用回归分析定量证明了这一点在方程里同时加入步长混淆因子和总长度因子后总长度的系数γ?大约在10??到10??量级比步长混淆因子γ小了大约两个数量级。在实际效果上是否把总长度偏差也一起去掉对最终模型性能几乎没有影响。这个发现也与其他研究的结论一致更长的推理过程通常对模型学习更有帮助总响应长度带来的偏差本身可能还有一定正向作用强行去掉反而可能得不偿失。十、收敛过程慢热还是快进研究团队还展示了一组收敛分析图比较了用GRACE方法选出的数据和用ASLEC方法选出的数据在训练过程中损失值可以理解为学习错误率的下降曲线。结果显示用GRACE数据训练的模型损失值始终比用ASLEC数据训练的模型高——也就是说错误率一直更高。而ASLEC选出的数据让模型收敛到了更低、更好的损失值。这从另一个角度证明了ASLEC选出的数据对学生模型来说确实更自然、更贴合——不是因为步长更长而是因为质量更高更适合学习。---说到底这项研究讲的是一个打分规则被钻了空子的故事。AI训练数据的筛选本来是要挑质量高的结果却无意中挑了步子长的。根本原因是一个隐藏的技术细节每步推理开头那个词的低概率在长步骤里被稀释了让长步骤的整体评分虚高。研究团队通过两种方案修正了这个偏差——一种是直接把开头那个词的分数丢掉不算另一种是用统计方法精确量化并消除它的影响。测试结果表明这两种方案都能让训练出来的AI模型在数学竞赛题上表现更好尤其是在数据量有限的情况下提升幅度相当显著。这个发现对今天AI大模型训练的实际流程有直接的参考价值——当我们在挑选训练数据时评分标准本身是否被某些隐藏因素干扰是一个值得认真检查的问题。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.06834查阅完整论文其中还附有开源代码和数据集的获取方式。---**QA**Q1步长混淆问题是什么为什么会影响AI训练数据的筛选质量A步长混淆是指在用自然度方法筛选AI推理训练数据时筛选结果系统性地偏向每步推理词数更多的数据而不是质量更高的数据。根本原因在于每步推理的第一个词由于面临多种可能的分叉选择概率天然偏低。在短步骤里这个低概率词占比大会拖低整体平均分在长步骤里它被后续大量高概率词稀释整体均值反而被托高。于是筛选方法误把长步骤当成高质量。Q2ASLEC-DROP和ASLEC-CASL两种方法有什么区别AASLEC-DROP的做法是计算平均概率时直接丢掉每步推理的第一个词简单粗暴没有额外计算负担但会损失第一个词本身携带的推理方向信息。ASLEC-CASL则通过线性回归模型精确估算第一个词比例对整体分数的系统性影响然后从原始分数中减去这部分影响既消除了偏差又保留了第一个词的有用信息。实验结果显示ASLEC-CASL整体表现优于ASLEC-DROP。Q3ASLEC方法在实际训练中能提升多少效果A根据在LIMO-v2和AceReason-1.1-SFT两个数据集上、四个不同大小的学生模型、五个评测基准的综合实验ASLEC-DROP相比当前最优的Local LP方法平均提升约6.28%ASLEC-CASL平均提升约9.08%。在数学竞赛AIME系列题目上单项提升幅度有时超过15个百分点。数据量越少的场景效果提升越明显。

更多文章