2452 字
12 分钟
ACE
2025-06-14

ACE: Off-Policy Actor-Critic with Causality-Aware Entropy Regularization#

0 Abstract#

困难:之前的无模型RL算法忽视了策略学习过程中varying significance of distinct primitive behaviors。

作者的贡献:探索了不同动作维度与奖励之间的因果关系,以评估训练过程中各种primitive behaviors的重要性。

方法:

  1. 引入一个causality-aware entropy项,它能有效识别并优先处理具有高潜在影响的动作,从而实现高效探索
  2. 分析梯度休眠现象,并引入休眠引导的重置机制,以进一步增强方法的性能

2 Preliminary#

SAC(Soft Actor-Critic) 是一种离策略最大熵DRL算法,其特点是目标函数中包含一个策略熵正则化项,旨在针对每个给定的状态执行更多样化的action,即访问具有更高熵的状态以实现更好的探索:

J(π)=t=0E(st,at)ρ(π)[γt(r(st,at)+αH(π(st)))]J(\pi) = \sum_{t=0}^\infty E_{(s_t, a_t)\sim \rho(\pi)}[\gamma^t(r(s_t, a_t) + \alpha \mathcal H(\pi(\cdot\mid s_t)))]

3 Off-policy Actor-critic with Causality-aware Entropy regularization#

3.1 策略-奖励关系上的因果发现 (Causal Discovery on Policy-Reward Relationship)#

作者提出的方法建立在 maximum entropy RL(Haarnoja et al., 2018) 的基础上,其主要目标是增强 off-policy RL 算法的样本效率。

因果策略-奖励结构建模 (Causal policy-reward structural modeling) 目标:探索每个动作维度 aia_i 及其对奖励增益 rr 的潜在影响之间的因果关系。 假设有观测序列{st,at,rt}t=1T\{s_t, a_t, r_t\}_{t=1}^T,其中 st=(s1,t,,sdim S,t)Ss_t = (s_{1, t}, \cdots, s_{\text{dim }S, t})^\top \subseteq S 表示在时间 tt 感知到的 dim S\text{dim }S 维状态,at=(a1,t,,adim A,t)Aa_t = (a_{1, t}, \cdots, a_{\text{dim }A, t})^\top \subseteq A 是执行的 dim A\text{dim }A 维动作,rtr_t 是对应的奖励(这里作者认为奖励只与sts_tata_t 有关,与下一状态没关系)。 关键:奖励变量 rtr_t 可能不受 st,ats_t, a_t 中某些维度影响,并且 st,ats_t, a_trtr_t 之间应该存在自然因果结构关系(Huang et al., 2022b)。为了在MDP中集成这些关系,作者明确地将变量上的因果结构编码到奖励函数中:

rt=rM(Bsrast,Barsat,ϵt)r_t = r_\mathcal M(B_{s\to r\mid a} \odot s_t, B_{a\to r\mid s} \odot a_t, \epsilon_t)

其中 BsraRdim S×1B_{s\to r\mid a}\in \mathbb R^{\text{dim }S\times 1}BarsRdim A×1B_{a\to r\mid s}\in \mathbb R^{\text{dim }A\times 1} 分别表示在给定 ata_t 的情况下从 sts_trtr_t 以及在给定 sts_t 的情况下从 ata_trtr_t 的图结构,\odot 表示pointwise product,ϵ\epsilon 表示独立同分布 (i.i.d.) 噪声项。

具体来说,在因果马尔可夫条件忠实性假设 (Pearl, 2009) 下,我们在命题 3.3 中建立了因果关系存在的条件,然后,如定理 3.4 所保证的,可以仅从观测数据中识别出真实的因果图 BarsB_{a \to r|s}

假设 3.1 (全局马尔可夫条件 (Spirtes et al., 2000; Pearl, 2009))

如果对于 VV 中任何划分 (S,A,R)(S,A,R),只要 AA d-分离 SSRR,就有 p(S,RA)=p(SA)p(RA)p(S,R|A) = p(S|A)p(R|A),则称变量集 V=(s1,t,...,sdimS,t,a1,t,...,adimA,t,rt)TV = (s_{1,t},...,s_{\dim S,t},a_{1,t},...,a_{\dim A,t},r_t)^T 上的分布 pp 满足图上的全局马尔可夫条件。

假设 3.2 (忠实性假设 (Spirtes et al., 2000; Pearl, 2009))

对于变量集 V=(s1,t,...,sdimS,t,a1,t,...,adimA,t,rt)TV= (s_{1,t},...,s_{\dim S,t},a_{1,t},...,a_{\dim A,t},r_t)^T,there are no independencies between variables that are not entailed by the Markovian Condition.

有了这两个假设,我们提供以下命题来表征因果关系存在的条件,以便我们能够从条件独立性关系中发现这些关键 action。

命题 3.3(因果关系存在的条件)

在因果图是马尔可夫且忠实于观测值的假设下,当且仅当 ai,t⊥̸rtst,ai,ta_{i,t} \not\perp r_t | s_t, a_{-i,t} 时,才存在从 ai,ta_{i,t}rtr_t 的边,其中 ai,ta_{-i,t} 是除 ai,ta_{i,t} 之外的 ata_t 的状态。

定理 3.4(保证所提出的因果结构的可识别性)

假设 st,ats_t, a_t, 和 rtr_t 遵循 MDP 模型,且没有未观测的混杂因素。在马尔可夫条件和忠实性假设下,结构向量 BarsB_{a \to r|s} 是可识别的。

这个定理保证了正确图的渐近可识别性。此外,通过对数据生成机制施加进一步假设,我们能够唯一地识别因果效应。

小结:总之这些定理证明了 (2)(2) 式中的所谓因果图 BB_{\cdot \to \cdot} 在一些条件下是存在的而且是唯一的。

3.2. 因果意识贝尔曼算子 (Causality-aware Bellman Operator)#

通过将可解释的因果权重 BarsB_{a \to r|s} 注入策略熵,我们提出了causality-aware entropy HcH_c 以增强探索。HcH_c 定义为:

Hc(π(s))=EaA[i=1dimABairsπ(ais)logπ(ais)]H_c(\pi(\cdot|s)) = -E_{a \in A}\left[ \sum_{i=1}^{\dim A} B_{a_i \to r|s} \pi(a_i|s) \log \pi(a_i|s)\right]

其中 a=(a1,...,adimA)a = (a_1,...,a_{\dim A})。 基于causality-aware entropy,对于固定策略 π\pi,Q 值可以通过应用修改后的贝尔曼算子 TcπT_c^\pi 并包含 Hc(π(s))H_c(\pi(\cdot|s)) 项进行迭代计算,如下所示:

TcπQ(st,at)r(st,at)+γEst+1P[Eat+1π[Q(st+1,at+1)+αHc(π(at+1st+1))]]T_c^\pi Q(s_t,a_t) \triangleq r(s_t,a_t) + \gamma E_{s_{t+1} \sim P}[E_{a_{t+1} \sim \pi}[Q(s_{t+1},a_{t+1}) + \alpha H_c(\pi(a_{t+1}|s_{t+1}))]]

为了更好地理解我们的算子,我们对其在表格 MDP 设置中的动态规划特性进行了理论分析,包括策略评估、策略改进和策略迭代。

命题 3.5 (策略评估)

考虑一个初始 Q0:S×ARQ_0 : S \times A \to \mathbb{R}A<|A|<\infty,Q 值迭代通过 Qk+1=TcπQkQ_{k+1} = T_c^\pi Q_k。那么序列 {Qk}\{Q_k\}kk \to \infty 时收敛到一个不动点 QπQ^\pi

命题 3.6 (策略改进)

πk\pi_k 为迭代 kk 时的策略,πk+1\pi_{k+1} 为更新后的策略(最大化 Q 值)。那么对于所有 (s,a)S×A(s,a) \in S \times A, A<|A|<\infty,我们有 Qπk+1(s,a)Qπk(s,a)Q^{\pi_{k+1}}(s,a) \ge Q^{\pi_k}(s,a)

命题 3.7 (策略迭代)

假设 A<|A|<\infty,通过重复策略评估和策略改进的迭代,任何初始策略都收敛到最优策略 π\pi^*,使得 Qπ(st,at)Qπ(st,at),πΠ,(st,at)Q^{\pi^*}(s_t,a_t) \ge Q^\pi(s_t,a_t), \forall \pi \in \Pi, \forall (s_t,a_t)

小结:总之就是说作者改进后的Causality-aware Bellman Operator与普通的Bellman Operator一样,都能在策略评估、策略改进和策略迭代中有相应的理论保证。

因果意识离策略 Actor-Critic (CausalSAC) :我们的因果意识熵提供了一个灵活的解决方案,可以无缝地集成到任何最大熵强化学习框架中。例如,作为一个即插即用组件,CausalSAC 的算法实例化可以在 SAC (Haarnoja et al., 2018) 中通过将我们的 HcH_c 集成到策略优化目标中实现:

J(π)=t=0E(st,at)ρ(π)[γt(r(st,at)+αHc(π(st)))]J(\pi) = \sum_{t=0}^\infty E_{(s_t, a_t) \sim \rho(\pi)} [\gamma^t(r(s_t,a_t) + \alpha H_c(\pi(\cdot|s_t)))]

3.3. 梯度休眠引导的重置 (Gradient-dormancy-guided Reset)#

因果意识探索引入了陷入局部最优和过度拟合特定基本行为的风险。为了解决这个挑战,作者分析了强化学习训练中的梯度休眠现象并引入了软重置机制。这种机制在梯度休眠的引导下,定期扰动智能体的神经网络以保持网络表达能力,从而提高智能体的性能。

作者声称他们是第一个从梯度的角度研究休眠现象的。

定义 3.8 (梯度休眠神经元, gradient-dormant neuron)

对于神经网络中的一个全连接层,其中 NlN_l 表示层 ll 中神经元的数量,神经元 ii 的梯度的 L2 范数表示为 niln_i^l。如果神经元 ii 满足以下条件,则将其归类为梯度休眠神经元:

nil(x)1Nlklnklτ\frac{n_i^l(x)}{\frac{1}{N^l} \sum_{k \in l} n_k^l} \le \tau

其中 τ\tau 是一个常数,作为确定每个层中神经元梯度休眠的阈值。

定义 3.9 ( τ\tau-休眠度 ατ\alpha_\tau)

记神经网络中梯度休眠神经元的总数量为 NτlN^l_\tau。神经网络的 τ\tau-Dormancy Degree ατ\alpha_\tau 定义为:

ατ=lϕNτllϕNl\alpha_\tau = \frac{\sum_{l \in \phi} N^l_\tau}{\sum_{l \in \phi} N^l}

τ\tau-休眠度 ατ\alpha_\tau 表示在全连接神经网络中具有 τ\tau 阈值的梯度休眠神经元的百分比。

作者认为休眠度可能会影响样本效率,并采用软重置方法 (Xu et al., 2023; Ash & Adams, 2020) 通过以重置因子 η\eta (表示权重重置的幅度) 定期扰动策略网络和评论家网络来进一步降低休眠度:

θt=(1η)θt1+ηϕi,ϕiinitializer\theta_t = (1-\eta)\theta_{t-1} + \eta\phi_i, \phi_i \sim \text{initializer}

直观上,较高的休眠度应该对应于更大幅度的权重刷新。η\eta 的值由梯度休眠度 ατ\alpha_\tau 确定,并被调节为 η=clip(ατ,0,ηmax)\eta = \text{clip}(\alpha_\tau, 0, \eta_{\max}),其中 ηmax1\eta_{\max} \le 1 是一个常数。与先前的工作 (Sokar et al., 2023; Xu et al., 2023) 相比,我们的梯度休眠引导重置方法采用了最少的超参数,并且在不同的强化学习设置中具有高度适应性。

3.4. 算法实例化 (Algorithm instantiation)#

结合因果意识熵正则化和梯度休眠引导重置机制,作者提出了算法 ACE:Causality-aware Entropy regularization 的离策略 Actor-Critic。伪代码如下图(非常清晰) ACE1

ACE 算法涉及三个主要组件:

  1. 识别 arsa \to r|s 的因果权重
  2. 将因果权重和相应的因果意识熵项整合到策略优化中
  3. 根据梯度休眠度周期性重置网络

为了有效计算 BarsB_{a \to r|s},作者采用了备受推崇的 DirectLiNGAM (Shimizu et al., 2011) 方法。训练 DirectLiNGAM 的主要实现思想:在第一阶段,它根据根变量的独立性和非高斯性特征,估计所有感兴趣变量(即状态、动作和奖励变量)的因果排序。因果排序是一个序列,意味着后一个变量不能导致前一个变量。在第二阶段,DirectLiNGAM 使用一些传统的基于协方差的方法估计变量之间的因果效应。

此外,作者制定了一个训练方案,即以规律的间隔 II 在一个由最近转换构成的本地缓冲区 DcD_c 上迭代调整策略的因果权重以减少计算成本。 给定因果权重矩阵 BarsB_{a \to r|s},我们可以通过方程 (3)(3) 获得因果意识熵 Hc(π(s))H_c(\pi(\cdot|s))。基于因果意识熵,对于固定策略 π\pi,Q 值可以通过应用 TcπT_c^\pi 进行迭代计算。 对于每个重置间隔,我们计算梯度休眠度,用权重 ϕi\phi_i 初始化一个随机网络,并软重置策略网络 πθ\pi_\theta 和 Q 网络 QϕQ_\phi