奔三啦

笔记

发表于2022-11-062024-08-27 RL cs234

Lecture 2 MRP 马尔科夫奖励过程 \[ \begin{equation} \left(\begin{array}{c} V\left(s_1\right) \\ \vdots \\ V\left(s_N\right) \end{array}\right)=\left(\begin{array}{c} R\left(s_1\right) \\ \vdots \\ R\left(s_N\right) \end{array}\right)+\gamma\left(\begin{array}{ccc} P\left(s_1 \mid s_1\right) & \cdots & P\left(s_N \mid s_1\right) \\ P\left(s_1 \mid s_2\right) & \cdots & P\left(s_N \mid s_2\right) \\ \vdots & \ddots & \vdots \\ P\left(s_1 \mid s_N\right) & \cdots & P\left(s_N ...

笔记

未读

cs234-11: Fast Reinforcement Learning I

发表于2022-11-012024-08-27 RL cs234

Multiarmed Bandits问题多臂老虎机问题多臂老虎机是假设在玩一个拥有多个摇臂的老虎机，每个摇臂对应一个动作，玩家一次只能选取一个摇臂，相当于是选取了一个动作，描述如下：老虎机有K个摇臂，每个摇臂以一定的概率吐出金币，且概率是未知的，但服从一定的概率分布即 \[ \mathcal{R}^{a} (r) = \mathbb{P}[r|a] \] 玩家每次（每个时间步step）只能从K个摇臂中选择其中一个摇臂 \(a \in \mathcal{A}\)，且相邻两次选择或奖励没有任何关系环境会给出奖励 \[ r_t \sim \mathcal{R}^{a_t} \] 玩家的目的是通过一定的策略使自己获得的累计奖励最大，即得到更多的金币 \[ \sum_{\tau=1}^t r_\tau \] 贪心算法选取最优动作Greedy Algorithm 使用蒙特卡洛算法估计的动作值 \[ \hat{Q}_t(a)=\frac{1}{N_t(a)} \sum_{t=1}^T r_t \mathbb{1}\left(a_t=a\right)\\ \Rightarro ...

笔记

未读

刷新cdn

发表于2022-10-282024-08-27 笔记

今天意外的发现上传的文章根本没有在cdn加速的缓存上进行更新，研究半天才发现，原来腾讯云的cdn刷新是靠储存桶里的cdn缓存刷新函数来触发的，而我在当时创建cdn加速函数的时候设置的触发条件是删除或增加文件，所以，如果说只是更改已经存在的文件，函数不认为这是删除或增加操作，就不会更改cdn中已经缓存的内容，结果就造成储存桶里的东西已经更新好几遍了，但是cdn里还是老东西。。。腾讯我真的无语。。。

科研

未读

MADRL总结

发表于2022-10-262024-08-27 MADRL RL 综述

MADRL Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications 多Agent系统的深度强化学习：挑战、解决方案和应用综述 Key Value 文献类型 journalArticle 标题 Deep Reinforcement Learning for Multiagent Systems: A Review of Challenges, Solutions, and Applications 中文标题多Agent系统的深度强化学习：挑战、解决方案和应用综述作者 [[Thanh Thi Nguyen]]、 [[Ngoc Duy Nguyen]]、 [[Saeid Nahavandi]] 期刊名称 [[IEEE Transactions on Cybernetics]] DOI 10.1109/TCYB.2020.2977374 引用次数 281 📊 影响因子 19.11 ...

科研

未读

Power method 估计复杂度

发表于2022-10-262024-08-27 RL knowledge base Math

Power method 估计复杂度 power method 的原理，其实就是利用矩阵的性质得到最大特征值的表达式实例

笔记

未读

Log-Barrier-method

发表于2022-10-262024-09-02 MADRL RL

Log-Barrier-method 在求一些优化问题的时候，往往遇到形式如下的问题： \[ \begin{array}{lll} \text { Problem statement } & h: \mathbb{R}^{n_x} \rightarrow \mathbb{R}^{n_h} \\ \min _{x \in \mathbb{R}^{n_x}} & f(\boldsymbol{x}) & \boldsymbol{g}: \mathbb{R}^{n_x} \rightarrow \mathbb{R}^{n_g} \\ \text { subject to: } & \boldsymbol{h}(\boldsymbol{x})=\mathbf{0} & \\ & \boldsymbol{g}(\boldsymbol{x}) \leq \mathbf{0} \end{array} \] 即需要满足\(x\)在\(h(x)\) 上且 \(g(x) \leq 0\) 时最小化\(f(x)\) 的值。采用barrier的方法可以求得此解 ...

科研

未读

Alpha-alpha-Rank

发表于2022-10-262024-08-27 MADRL RL

Many-Agent Reinforcement Learning-chapter 4 多智能体强化学习-1 Key Value 文献类型 journalArticle 标题 Many-Agent Reinforcement Learning 中文标题多代理强化学习作者 [Yaodong Yang] 评分 ⭐⭐⭐⭐⭐ 分类 [[A 多智能体增强学习, 0 综述]] 条目链接 My Library PDF 附件 2021__Yang__Many-Agent Reinforcement Learning.pdf 👣➿👣 Alpha rank : Mathmatical formulation 假设有\(N\)个agent，每个agent有\(k_i\)个策略，则有单个智能体的策略集 \(\mathscr{S}_i\) , 大小为\(k_i\)： \(\mathscr{S}_i=\left\{\pi_{i, 1}, \ldots, \pi_{i, k_i}\right\}, k_i=\left|\mathscr{ ...

综述 Multi-Agent Reinforcement Learning A Selective Overview of Theories and Algorithms

科研

未读

综述 Multi-Agent Reinforcement Learning A Selective Overview of Theories and Algorithms

发表于2022-05-092024-08-27

Single-Agent RL Markov process 马尔科夫过程 image-20220505143413803 马尔科夫过程是一个标准模型，广泛应用在全观测状态系统中，即智能体可以完全获取环境的状态信息，通过概率转换模型，在某一个状态通过一个动作到达另一个状态。因此结局马尔科夫问题的关键就是找到一个策略使得动作空间\(A\)映射到状态空间\(S\)上去。其中动作为\(a_{t} \sim \pi\left(\cdot \mid s_{t}\right)\) ，并能使得到达每一个状态获取的回报discounted accumulated reward能够被最大化： \[ \mathbb{E}\left[\sum_{t \geq 0} \gamma^{t} R\left(s_{t}, a_{t}, s_{t+1}\right) \mid a_{t} \sim \pi\left(\cdot \mid s_{t}\right), s_{0}\right] \] 其中action-value function（Q方程）和state-value function (V方程)分别为 ...

笔记

未读

主动增强学习 Active Reinforcement Learning

发表于2022-04-262024-08-27 AIMA

Active learning 主动学习 Active ADP active ADP的更新公式 \[ \begin{equation} U(s)=\max _{a \in A(s)} \sum_{s^{\prime}} P\left(s^{\prime} \mid s, a\right)\left[R\left(s, a, s^{\prime}\right)+\gamma U\left(s^{\prime}\right)\right] \end{equation} \] active adp 和passive adp的主要区别是在于agent在学习效用函数时，对于passive ADP在某个状态的策略是固定的，对于active adp在某个状态下有多个动作可以选择，active adp 会选择产生的最大的效用值作为expected utility value(MEU). exploration and exploitation 智能体对环境的探索依然受到exploration和exploitation的限制，对于使用ADP算法，可以将乐观估计融入效用之更新公式中: \[ \begin{ ...

笔记

未读

Learning from examples

发表于2022-04-262024-08-27 AIMA

Decision Trees决策树使用Entropy计算率先分割哪个decision tree的分支计算一个随机变量的不确定性使用熵，如果一个硬币投掷后头面朝上的概率为1的话，那这个硬币代表的随机变量的不确定性就为0，如果一个硬币有50%的概率投掷硬币头朝上，则其熵计算为：熵的计算公式：单位为比特信息增益 information gain 一颗决策树中的非叶子节点有split函数，用于将当前所输入的数据分到左子树或者右子树。我们希望每一个节点的split函数的性能最大化。这里的性能是指把两种不同的数据分开的能力，不涉及到算法的时间复杂度。但是，怎么去衡量一个split函数的性能呢？这里我们使用信息增益来衡量G。如果G越大，说明该节点的split函数将输入数据分成两份的性能越好。版权声明：本文为CSDN博主「ChainingBlocks」的原创文章原文链接：https://blog.csdn.net/liangyihuai/article/details/103206360 如果一个decision tree拥有不同的attribute将一个训练集分割成不同的组 ...

Sheldon Zheng