哈佛大学 || 概念空间中学习动态的涌现：探索隐藏能力

获取本文论文原文PDF，请在公众号【AI论文解读】留言：论文解读

今天主要看一个问题：在模型中的学习动态是如何涌现的。

在现代生成模型的研究与应用中，不断发现这些模型在处理训练数据时展现出了惊人的能力，这些能力很可能源于它们识别并操纵数据生成过程中的抽象概念的能力。然而，关于模型学习这些概念的决定因素、学习的顺序以及操纵这些概念的能力，仍有许多基本问题尚未解决。

为了探索这些问题，哈佛大学的论文中提出了概念空间中的学习动态问题。

在概念空间中，每一个轴都代表数据生成过程中的一个独立概念。通过在这个空间中描述学习动态，识别出概念学习的速度以及学习顺序是如何被数据的特性所控制的。更令人惊讶的是，模型在概念空间中学习动态的方向突然转变的时刻，这些点正好对应于隐藏能力的出现，即模型具有操纵某一概念的能力，但这些能力还不能通过简单的输入提示来引发。

论文标题: Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

机构:

Department of Physics, Harvard University, Cambridge, MA, USA
Center for Brain Science, Harvard University, Cambridge, MA, USA
Physics & Informatics Laboratories, NTT Research, Inc., Sunnyvale, CA, USA
EECS Department, University of Michigan, Ann Arbor, MI, USA

论文链接:https://arxiv.org/pdf/2406.19370.pdf

什么是概念空间

在现代生成模型的研究中，概念空间框架提供了一个新颖的视角来分析和理解模型如何学习和操纵数据生成过程中的概念。概念空间是一个抽象的坐标系统，其轴对应于数据生成过程中的独立概念。这些概念可以是形状、大小、颜色等，每一个轴代表一个概念的变化维度。

通过在概念空间中分析模型的学习动态，可以观察到模型如何逐步学习各个概念，并且如何在学习过程中突然转变其学习方向。这些转变点通常对应于模型突然获得新能力的时刻，即模型已经具备了操纵某一概念的能力，但这些能力在常规输入提示下尚未显现。

例如，考虑一个以形状、大小和颜色为概念的概念空间，如果模型在训练中看到了蓝色圆形，那么在概念空间中，这可以表示为沿着颜色和形状轴的一个点。如果后续模型能够生成红色圆形或蓝色三角形，这表明模型已经学会了在概念空间中沿颜色或形状轴移动，从而操纵这些概念生成新的图像样本。

学习动态的实验设置

为了具体分析模型在概念空间中的学习动态，设计了一系列实验，使用合成的玩具数据集来控制数据生成过程。这些数据集包含了具有不同形状、大小和颜色的2D对象能够精确地追踪模型在学习各个概念时的表现。

1. 实验数据生成：定义了三个概念：颜色（红色、蓝色）、大小（大、小）、形状（圆形、三角形）。生成了2048个图像，每个图像中的对象位置随机但属性固定。

2. 模型训练与测试：使用变分扩散模型，条件化地生成32x32的图像。训练集包括大红圆、大蓝圆和小红圆等类别，测试集则包括小蓝圆，以评估模型对概念的操纵能力和泛化能力。

3. 评估指标：训练了概念分类器来评估生成图像是否符合目标概念类。这些分类器基于U-Net架构，通过平均池化层和多个MLP分类头来独立评估每个概念变量。

通过这些设置，可以详细地观察和分析模型在概念空间中的学习轨迹，以及不同概念信号强度如何影响模型学习概念的速度和顺序。这些实验不仅帮助理解生成模型的内部工作机制，还为评估和提升模型的概念操纵能力提供了实验基础。

概念信号对学习速度的影响

在现代生成模型的学习过程中，概念信号的作用至关重要。概念信号是指数据生成过程中对概念变量值变化的敏感度。这一度量指标直接影响模型学习概念的速度，从而决定了模型能够多快地掌握并操纵这些概念。

通过对不同概念信号强度的实验，发现概念信号的大小直接决定了模型学习特定概念的速度。例如，在实验中，通过调整颜色和大小概念的RGB对比度和对象大小差异，我们观察到当概念信号较强时，模型学习该概念的速度明显加快。这一发现不仅展示了概念信号在概念学习中的直接作用，还进一步揭示了不同概念信号强度可能导致的学习速度差异。

图3：概念信号决定了学习速度。当不同类别之间的颜色（左）和大小（右）的分离增加时，概念学习的速度与梯度步长时间的反比。当概念类和概念之间的像素差异较大时，概念学习速度更快。

概念学习的突变和阶段转换

在概念空间中的学习动态分析揭示了概念学习过程中的突变和阶段转换现象。研究表明，模型的学习轨迹在概念空间中经历了明显的转折点，这些转折点恰好对应于模型突然获得操纵概念的隐藏能力的时刻。

具体来说，通过分析模型在概念空间中的学习轨迹，观察到学习动态可以被划分为两个阶段：第一阶段是隐藏能力的学习阶段，在这一阶段中，尽管模型还不能通过简单的输入提示来产生期望的输出，但已经存在系统性的潜在干预措施可以引导模型生成期望的输出；第二阶段是从输入空间学习生成期望输出的阶段。

这种从概念记忆到概念操作能力突变的现象，不仅玩具模型数据集上有所体现，也在更广泛的实际应用模型中得到了验证。这一发现对于理解和优化生成模型的训练过程具有重要意义，提供了一个新的视角来观察和解释模型在学习过程中能力的突然变化和阶段性进展。

隐藏能力的实际激发

在现代生成模型的训练过程中，观察到一个有趣的现象：模型在概念空间中的学习动态会突然转变方向。这些转变点与隐藏能力的出现密切相关，即模型已经具备了操纵某一概念的能力，但这些能力尚未通过简单的输入提示被激发出来。这种能力的突然出现，称之为“隐藏能力的实际激发”。

例如，在一个以形状、颜色和大小为概念的合成数据集上训练的条件生成模型中，尽管模型在初期不能直接通过输入空间生成期望的输出（如从训练中未见过的概念类别生成样本），但通过潜在的干预，可以引导模型生成这些输出。这表明，在模型的训练过程中，某些能力是潜在学习并突然“觉醒”的，而这通常在模型的学习轨迹中的某个转折点发生。

通过实验，发现在模型的学习动态中，这些转折点准确地对应于模型能力的突然增强，这一点在图4(b)中的学习轨迹中得到了体现。在这些点上，模型从概念记忆阶段过渡到能够生成训练集外概念的阶段。这种现象不仅在合成数据集上观察到，在更广泛的应用场景中也有所体现，如在大规模的文本到图像的生成模型中也观察到了类似的隐藏能力的突发。

图4：概念信号支配着泛化动力学。(a)在分布内概念类00的概念空间中学习动态（左下）。(b)学习动态（OOD）概念类11（右上）。我们在x轴上绘制颜色的精度，在y轴上绘制大小。归一化颜色概念信号电平采用颜色编码。01和10的两个轨迹可以用来说明概念记忆。

概念未指定对学习动态的影响

在实际应用中，输入指令往往是未完全指定的，这种未指定性会对模型学习概念及其操纵能力产生重大影响。例如，在训练数据中，如果“红色三角形”中的“红色”一词被遮蔽，模型在未遮蔽情况下可能能正确理解和生成“蓝色三角形”，但在遮蔽后，模型生成的图像颜色可能会从蓝色逐渐偏向紫色，最终变为红色，如图7所示。这说明模型在概念学习上的混淆，未能将形状和颜色彻底分离，从而影响了其对未见概念的泛化能力。

图7：不规范和概念学习。(a)最先进的生成模型[101]错误地生产了一个红草莓（右上角）的提示符“黄草莓”。(b)在训练数据不不足的情况下，模型F准确地学习形状和颜色的概念，成功地推广到看不见的节点蓝色三角形（最左边）。当掩模应用于提示红色三角形时，三角形的概念信号越来越开始与概念红色相关。这将导致输出图像随着掩蔽程度的增加而从蓝色变成紫色（面板从左到右）。最终，三角形的颜色尺寸会折叠，使模型偏向于只生成红色三角形（最右边）。

通过对概念未指定的系统研究发现，随着遮蔽提示的增加，模型学习特定概念的速度会减慢，概念的泛化能力也会受到抑制。这种现象在图8和图9中有详细的展示，模型的学习动态受到了明显的影响。尤其是在高遮蔽比例下，模型对概念的理解开始偏离正确的轨道，导致输出结果与期望的概念类别不符。

图8：规格不足延迟分布分发（OOD）泛化。随着掩蔽提示百分比的增加，精度达到0.8以上所需的梯度步数。更高比例的蒙面提示减慢了概念学习的速度。

图9：规格不足阻碍了分布外（OOD）泛化。(a)具有不同程度的提示掩蔽的学习动态，从0%到100%，以及生成的图像。在0%掩蔽（右上图像），模型正确地从提示“蓝色三角形”中生成蓝色三角形图像。随着掩蔽量的增加（从右到左），图像逐渐转向不正确的颜色，即红色。(b)基于等式的概念空间下欠规范学习动力学仿真 2.我们的玩具模型复制了一个经过训练的网络的学习动态。

总体来看，概念未指定不仅延缓了模型对概念的学习，还可能导致模型在面对未见概念类别时表现出的泛化能力下降。这一发现对于设计更为健壮的生成模型具有重要的指导意义，特别是在输入条件可能存在高度不确定性的应用场景中。