网站首页 > 文章精选正文

cvpr 2024|适应长度偏移:用于轨迹预测的FlexiLength网络

balukai 2025-05-11 14:10:29 文章精选 23 ℃

Adapting to Length Shift: FlexiLength Network for Trajectory Prediction

研究背景

轨迹预测在自动驾驶、机器人技术和场景理解等应用中扮演着重要角色。现有的轨迹预测方法主要集中在开发紧凑的神经网络以提高在公开数据集上的预测精度，这些方法通常使用标准化的输入持续时间进行训练。然而，当这些模型在具有不同观察长度的数据上进行评估时，会出现显著的性能下降，这一现象被称为“观察长度偏移”（Observation Length Shift）。

研究意义

本研究针对观察长度偏移问题，提出了一种通用且有效的框架——FlexiLength Network（FLN），以增强现有轨迹预测技术对不同观察周期的鲁棒性。FLN通过整合具有不同观察长度的轨迹数据、采用FlexiLength Calibration（FLC）获取时间不变表示，并利用FlexiLength Adaptation（FLA）进一步细化这些表示，从而提高了未来轨迹预测的准确性。这对于提高轨迹预测模型在实际应用中的适应性和可靠性具有重要意义。

文献综述

轨迹预测：现有的轨迹预测方法主要集中在理解代理之间的社会动态，利用图神经网络（GNNs）和生成模型（如GANs、CVAEs和Diffusion模型）取得了显著成果。然而，这些方法在优先考虑预测精度的同时，往往忽视了真实世界中可能出现的条件差异，导致在不同情况下的适应性降低。

训练与测试差异：近期的研究开始关注轨迹预测中的训练与测试差异，包括环境变化、观察不完全等挑战。然而，观察长度偏移问题相对较少被探讨。

测试时适应：测试时适应的目标是在测试阶段调整模型以适应新数据。虽然一些方法通过辅助任务或知识蒸馏等方式实现了这一目标，但它们通常需要修改训练过程或在推理阶段使用评估数据。

具体方法

FLN框架通过以下两个关键组件来解决观察长度偏移问题：

FlexiLength Calibration（FLC）：

子网络权重共享：在训练过程中，为不同观察长度的轨迹数据（短、中、长）分配相应的子网络进行处理，但子网络之间共享空间编码器、时间编码器和轨迹解码器的权重。

时间蒸馏：利用较长观察长度的预测作为“教师”网络，通过KL散度损失校准和融入较短观察长度的“学生”网络预测，以促进时间不变表示的学习。

FlexiLength Adaptation（FLA）：

独立位置编码：为每个子网络实现独立的位置编码，以适应不同观察长度的输入。

专用层归一化：为每个子网络引入专用的层归一化，以独立学习归一化参数，减少观察长度变化对特征聚合一致性的影响。

图1: Observation Length Shift现象

内容：图1展示了AgentFormer模型在ETH/UCY数据集上，使用标准观察长度8个时间步训练后，在不同观察长度（2、4、6个时间步）下的性能表现，并与孤立训练（IT）进行了比较。
解释：当测试观察长度与训练观察长度不一致时，模型性能显著下降，这种现象被称为Observation Length Shift。孤立训练（IT）虽然在一定程度上能改善特定观察长度下的性能，但需要对每个观察长度分别进行训练，成本较高。

图2: ADE5和FDE5在不同观察长度下的结果

内容：图2展示了AgentFormer模型在nuScenes数据集上，使用标准观察长度4个时间步训练后，在更短观察长度（2、3个时间步）下的ADE5和FDE5指标，并与孤立训练（IT）进行了比较。
解释：ADE5和FDE5分别表示预测轨迹与真实轨迹在5个时间步内的平均位移误差和最终位移误差。与孤立训练相比，使用标准观察长度训练的模型在更短观察长度下性能显著下降，进一步验证了Observation Length Shift现象的存在。

图3: Transformer编码器中Layer Normalization的统计量

内容：图3展示了AgentFormer模型中Transformer编码器的两个Layer Normalization层，在ETH数据集上使用不同观察长度（2、6、8个时间步）孤立训练后的均值（μ）和方差（σ^2）统计量。
解释：Layer Normalization的均值和方差在不同观察长度下存在显著差异，这种差异可能是影响模型泛化能力的一个因素。这种差异直接来源于数据本身，表明观察长度的变化对模型内部特征统计量有显著影响。

公式1用于计算Transformer模型中位置编码的特征。其中，τ_t^n(k)表示第n个代理在时间步t的第k个特征索引的位置编码。H是观察长度，d_t是特征维度。正弦和余弦函数用于生成与时间步和特征索引相关的位置信息。

公式2描述了Layer Normalization（LN）的计算过程。其中，y_L是LN的输出，f_L是LN的输入特征，γ_H和β_H是LN层的可学习参数，μ_H和σ_H^2分别是输入特征的均值和方差，ε是一个小常数用于防止除零错误。

图4: FlexiLength Network（FLN）示意图

内容：图4展示了FlexiLength Network（FLN）的整体架构，包括训练流和推理流。在训练阶段，不同观察长度的轨迹序列被送入对应的子网络进行处理；在推理阶段，根据输入观察长度激活相应的子网络。
解释：FLN通过整合不同观察长度的轨迹数据，并利用FlexiLength Calibration（FLC）和FlexiLength Adaptation（FLA）来学习时间不变表示，从而增强模型对观察长度变化的鲁棒性。子网络之间共享权重，减少了参数数量，并隐式地提供了这些观察序列属于同一轨迹的先验知识。

公式3定义了子网络的输出分布。Y^*是子网络的输出轨迹，它遵循由参数ψ^*定义的分布D(ψ^*)。F^*(X^*; θ)表示使用参数θ的子网络F^*对输入X^*进行处理的过程。

公式4计算了回归损失，用于更新长观察长度子网络F_L的参数。是真实轨迹，ψ_L是长观察长度子网络的预测分布参数。损失函数是负对数似然损失，用于衡量预测分布与真实轨迹之间的差异。

公式5计算了KL散度损失，用于更新短观察长度和中等观察长度子网络F_S和F_M的参数。KL(D(ψ_L) || D(ψ_M))和KL(D(ψ_L) || D(ψ_S))分别衡量了长观察长度子网络的预测分布与短观察长度和中等观察长度子网络的预测分布之间的差异。通过最小化KL散度损失，可以使短观察长度和中等观察长度子网络的预测分布接近长观察长度子网络的预测分布。

这是FlexiLength Network (FLN)的总损失函数，由两部分组成：预测损失（L_reg）和KL散度损失（L_kl）。λ1是用于平衡这两部分损失的权重参数，在论文实现中设置为1。

这是独立位置编码的计算公式，用于FLN中的每个子网络。τ_t^n(k)表示在时间步t，对于第n个代理，特征索引为k的位置编码。H*表示当前子网络对应的观察长度（H_S、H_M或H_L），d_t是特征维度。

这是特殊层归一化的计算公式，用于FLN中的每个子网络。y*表示归一化后的特征，γ*和β*是可学习的参数，μ*和σ*分别是当前子网络对应输入序列的中间特征f*的均值和标准差，ε是一个很小的数，用于防止除零错误。

表1

标题：nuScenes数据集上各模型ADE5/FDE5及ADE10/FDE10指标比较

解释：表1展示了在nuScenes数据集上，使用不同观察长度（2、3、4时间步）评估时，AgentFormer模型及其变种与FLN框架的ADE5/FDE5和ADE10/FDE10指标。ADE（Average Displacement Error）和FDE（Final Displacement Error）是衡量轨迹预测精度的常用指标，分别表示平均位移误差和最终位移误差。FLN在所有观察长度上均表现出优于其他基线模型（包括IT、Mixed Sampling、Fine-tuning、Joint）的性能，证明了FLN在处理不同观察长度方面的有效性和鲁棒性。

表2

标题：Argoverse1验证集上各模型ADE6/FDE6指标比较

解释：表2展示了在Argoverse1验证集上，使用不同观察长度（10、20、30时间步）评估时，HiVT模型及其变种与FLN框架的ADE6/FDE6指标。与表1类似，FLN在所有观察长度上均表现出最佳性能，进一步验证了FLN框架在不同数据集和模型上的广泛适用性。

图5: ETH/UCY数据集上ADE20的性能表现

内容：图5展示了在ETH/UCY数据集的五个子集上，使用AgentFormer模型通过FLN框架和孤立训练（IT）在ADE20指标下的性能比较。
解释：ADE20表示预测轨迹与真实轨迹在20个时间步内的平均位移误差。FLN框架在所有观察长度下均显著优于孤立训练，证明了FLN在处理不同观察长度轨迹数据时的有效性和鲁棒性。

图6: ETH/UCY数据集上FDE20的性能表现

内容：图6与图5类似，但展示了FDE20指标下的性能比较。
解释：FDE20表示预测轨迹与真实轨迹在20个时间步内的最终位移误差。FLN框架在FDE20指标下同样表现出色，进一步验证了其在轨迹预测任务中的优越性。

图7展示了在Argoverse1验证集上，FlexiLength Network (FLN)与Isolated Training (IT)在不同观察长度下的性能对比。图7通过折线图的形式，直观地比较了两种方法在多个观察长度下的平均位移误差（ADE6）和最终位移误差（FDE6）的改进情况。

在训练范围内的观察长度（10至30时间步长），FLN相对于IT有显著的性能提升，尤其是在较短的观察长度下（如10、14时间步长），性能提升更为明显。
即使在超出训练范围的观察长度下（如4、6、8、12、18、22、28、34时间步长），FLN仍然能够保持一定的性能优势，尽管优势有所减小。这表明FLN具有良好的泛化能力，能够适应不同长度的观察数据。

表3

标题：不同观察长度组合下FLN在Argoverse1验证集上的性能

解释：表3探讨了不同观察长度组合对FLN性能的影响。结果显示，包含更多中间观察长度的组合（如FLN-3和FLN-4）在所有评估长度上均优于仅包含较少长度的组合（如FLN-2）。这表明，通过训练时包含更多样化的观察长度数据，FLN能够更好地适应不同长度的输入，从而提高预测性能。

表4

标题：nuScenes数据集上FLN各组件消融研究

解释：表4通过消融研究分析了FLN框架中各个组件（子网络权重共享、时间蒸馏、独立位置编码、专用层归一化）对性能的影响。结果显示，移除任何一个组件都会导致性能下降，证明了这些组件在FLN框架中的必要性和有效性。特别是时间蒸馏和独立位置编码对性能提升的贡献较大，进一步强调了FLN在处理观察长度偏移问题时的独特优势。

上一篇：计算机组成原理 - 输入输出系统(2)
下一篇： MX550独显是智商税?如何看待2022年入门级移动显卡?

网站首页 > 文章精选 正文