分类: 笔记

笔记

cs234-4: SARSA、Q-learning、On policy 和off policy简单理解

发表于2022-11-162024-09-02 RL cs234

Lecture 4 Epsilon greedy 仔细想了想贪心算法，回顾一下并没有那么简单。贪心算法的定义是： \[ \begin{equation} \pi(a \mid s)= \begin{cases}a & \text { with probability } \frac{\epsilon}{|A|} \\ \arg \max _a Q^\pi(s, a) & \text { with probability } 1-\epsilon\end{cases} \end{equation} \] 也就是使用一个小的概率\(\epsilon\)来决定是探索还是深挖，即以\(\epsilon\) 的概率进行随机动作探索，从而获得那些潜在的可以带来更高未来回报的动作（当前一步不可见，但是在后续步骤中有可能拥有更多回报，也就是潜力更大），以1-\(\epsilon\) 的概率选择最大Q值的动作作为策略更新。贪心算法是具有递增特性的，即如果对一个本身就是贪心算法进行贪心行为，那么可以得到其递增性，这里不容易想象到具体的案例，但是可以用公式表达： \[ \begin{ali ...

笔记

未读

cs234-3：蒙特卡洛、TD-learning

发表于2022-11-062024-08-27 RL cs234

Lecture 3 Bias, Variance and MSE 偏差、方差、均方差 Consider a statistical model that is parameterized by \(\theta\) and that determines a probability distribution over observed data \(P(x \mid \theta)\) Consider a statistic \(\hat{\theta}\) that provides an estimate of \(\theta\) and is a function of observed data \(x \quad \hat{\theta}=f(x)\) E.g. for a Gaussian distribution with known variance, the average of a set of i.i.d data points is an estimate of the mean of the Gaussian Definition: the bias o ...

笔记

未读

cs234-2: 马尔科夫奖励过程、Policy improvement

发表于2022-11-062024-08-27 RL cs234

Lecture 2 MRP 马尔科夫奖励过程 \[ \begin{equation} \left(\begin{array}{c} V\left(s_1\right) \\ \vdots \\ V\left(s_N\right) \end{array}\right)=\left(\begin{array}{c} R\left(s_1\right) \\ \vdots \\ R\left(s_N\right) \end{array}\right)+\gamma\left(\begin{array}{ccc} P\left(s_1 \mid s_1\right) & \cdots & P\left(s_N \mid s_1\right) \\ P\left(s_1 \mid s_2\right) & \cdots & P\left(s_N \mid s_2\right) \\ \vdots & \ddots & \vdots \\ P\left(s_1 \mid s_N\right) & \cdots & P\left(s_N ...

笔记

未读

cs234-11: Fast Reinforcement Learning I

发表于2022-11-012024-08-27 RL cs234

Multiarmed Bandits问题多臂老虎机问题多臂老虎机是假设在玩一个拥有多个摇臂的老虎机，每个摇臂对应一个动作，玩家一次只能选取一个摇臂，相当于是选取了一个动作，描述如下：老虎机有K个摇臂，每个摇臂以一定的概率吐出金币，且概率是未知的，但服从一定的概率分布即 \[ \mathcal{R}^{a} (r) = \mathbb{P}[r|a] \] 玩家每次（每个时间步step）只能从K个摇臂中选择其中一个摇臂 \(a \in \mathcal{A}\)，且相邻两次选择或奖励没有任何关系环境会给出奖励 \[ r_t \sim \mathcal{R}^{a_t} \] 玩家的目的是通过一定的策略使自己获得的累计奖励最大，即得到更多的金币 \[ \sum_{\tau=1}^t r_\tau \] 贪心算法选取最优动作Greedy Algorithm 使用蒙特卡洛算法估计的动作值 \[ \hat{Q}_t(a)=\frac{1}{N_t(a)} \sum_{t=1}^T r_t \mathbb{1}\left(a_t=a\right)\\ \Rightarro ...

笔记

未读

刷新cdn

发表于2022-10-282024-08-27 笔记

今天意外的发现上传的文章根本没有在cdn加速的缓存上进行更新，研究半天才发现，原来腾讯云的cdn刷新是靠储存桶里的cdn缓存刷新函数来触发的，而我在当时创建cdn加速函数的时候设置的触发条件是删除或增加文件，所以，如果说只是更改已经存在的文件，函数不认为这是删除或增加操作，就不会更改cdn中已经缓存的内容，结果就造成储存桶里的东西已经更新好几遍了，但是cdn里还是老东西。。。腾讯我真的无语。。。

笔记

未读

Log-Barrier-method

发表于2022-10-262024-09-02 MADRL RL

Log-Barrier-method 在求一些优化问题的时候，往往遇到形式如下的问题： \[ \begin{array}{lll} \text { Problem statement } & h: \mathbb{R}^{n_x} \rightarrow \mathbb{R}^{n_h} \\ \min _{x \in \mathbb{R}^{n_x}} & f(\boldsymbol{x}) & \boldsymbol{g}: \mathbb{R}^{n_x} \rightarrow \mathbb{R}^{n_g} \\ \text { subject to: } & \boldsymbol{h}(\boldsymbol{x})=\mathbf{0} & \\ & \boldsymbol{g}(\boldsymbol{x}) \leq \mathbf{0} \end{array} \] 即需要满足\(x\)在\(h(x)\) 上且 \(g(x) \leq 0\) 时最小化\(f(x)\) 的值。采用barrier的方法可以求得此解 ...

笔记

未读

主动增强学习 Active Reinforcement Learning

发表于2022-04-262024-08-27 AIMA

Active learning 主动学习 Active ADP active ADP的更新公式 \[ \begin{equation} U(s)=\max _{a \in A(s)} \sum_{s^{\prime}} P\left(s^{\prime} \mid s, a\right)\left[R\left(s, a, s^{\prime}\right)+\gamma U\left(s^{\prime}\right)\right] \end{equation} \] active adp 和passive adp的主要区别是在于agent在学习效用函数时，对于passive ADP在某个状态的策略是固定的，对于active adp在某个状态下有多个动作可以选择，active adp 会选择产生的最大的效用值作为expected utility value(MEU). exploration and exploitation 智能体对环境的探索依然受到exploration和exploitation的限制，对于使用ADP算法，可以将乐观估计融入效用之更新公式中: \[ \begin{ ...

笔记

未读

Learning from examples

发表于2022-04-262024-08-27 AIMA

Decision Trees决策树使用Entropy计算率先分割哪个decision tree的分支计算一个随机变量的不确定性使用熵，如果一个硬币投掷后头面朝上的概率为1的话，那这个硬币代表的随机变量的不确定性就为0，如果一个硬币有50%的概率投掷硬币头朝上，则其熵计算为：熵的计算公式：单位为比特信息增益 information gain 一颗决策树中的非叶子节点有split函数，用于将当前所输入的数据分到左子树或者右子树。我们希望每一个节点的split函数的性能最大化。这里的性能是指把两种不同的数据分开的能力，不涉及到算法的时间复杂度。但是，怎么去衡量一个split函数的性能呢？这里我们使用信息增益来衡量G。如果G越大，说明该节点的split函数将输入数据分成两份的性能越好。版权声明：本文为CSDN博主「ChainingBlocks」的原创文章原文链接：https://blog.csdn.net/liangyihuai/article/details/103206360 如果一个decision tree拥有不同的attribute将一个训练集分割成不同的组 ...

前向网络和反向传播 feedforward and back-propagation

笔记

未读

前向网络和反向传播 feedforward and back-propagation

发表于2022-04-262024-08-27 AIMA

前向网络和反向传播（feedforward and back-propagation）激活函数 activation function 网络中每一层除了\(weight \times x\)的形式，还需要将乘积结果投入一个激活函数中，普适性近似定理universal approximation theorem指出，一个只有两层计算单元的网络，第一层是非线性的，第二层是线性的，可以近似任意程度的连续函数。因此激活函数需要是一个非线性的函数。前向网络中比较流行的的激活函数： sigmoid： \[ \sigma(x)=1 /\left(1+e^{-x}\right) \] ReLU: rectified linear unit \[ \operatorname{ReLU}(x)=\max (0, x) \] softplus：丝滑版本的ReLU \[ \operatorname{softplus}(x)=\log \left(1+e^{x}\right) \] Tanh \[ \tanh (x)=\frac{e^{2 x}-1}{e^{2 x}+1} \] Note that the ...

笔记

未读

被动增强学习 Passive reinforcement learning

发表于2022-04-262024-08-27 AIMA

Passive reinforcement learning 被动增强学习前提：环境有限，完全可观测，就是说所有的规则都掌握，在环境里所有动作所带来的作用都能够被识别。对于agent而言，有一个固定的动作执行策略\(\pi(s)\)，即在某种环境状态下执行某种动作 agent 的目标是学习贴现效用函数\(U^\pi(s)\)(discounted utility function) ，这里的\(s\)指的是状态，\(\pi\)是agent的执行策略贴现效用函数\(U^\pi(s)\)(discounted utility function) ：从初始状态s开始执行策略\(\pi\) 的奖励之和的期望值 4x3 世界模型使用一个4X3世界的Typical trials 做解释 image-20220425165114825 最上面3行是3个trails，即从(1,1)走到terminal states的三组走法，概率转换模型为图b所示，这是一个MDP问题，即有概率转换模型、reward、以及状态效用值。简而言之，被动增强学习是指在某个可被观测的环境中，age ...

Sheldon Zheng