成大事

使用Docker部署Python Flask（深度学习）应用

2024-10-22T01:22:38.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/143138863

Docker是一种开源的容器化平台，可以将应用程序及其依赖项打包成一个独立的容器，实现快速部署和跨平台运行。本文将详细介绍如何使用Docker来部署Python Flask应用程序，帮助开发者更高效地构建和部署应用。

准备工作

在开始之前，我们需要确保服务器已经安装了Docker。
1、可以自己下载：Linux（Centos7）安装Docker 教程
2、也可以在宝塔的页面直接下载

创建Flask应用

首先，创建一个新的文件夹来存放Flask应用的代码。在该文件夹中，创建一个名为app.py的Python文件，并在其中编写以下代码：

from flask import Flaskapp = Flask(__name__)@app.route('/')def hello():    return 'Hello, Flask!'if __name__ == '__main__':    app.run(debug=True, host='0.0.0.0')

上述代码创建了一个简单的Flask应用，当访问根路径时，返回”Hello, Flask!”。

requirements.txt

Flask==3.0.3Flask_Cors==4.0.1flask_restx==1.3.0flask_sqlalchemy==3.1.1numpy==1.24.4opencv_python==4.8.1.78Werkzeug==3.0.4pandas==2.0.3Pillow==11.0.0ultralytics==8.0.208Werkzeug==3.0.4pymysql==1.0.2

使用pipreqs快速生成

安装

pip install pipreqs

在当前目录生成

pipreqs . --encoding=utf8 --force

注意--encoding=utf8为使用utf8编码，不然可能会报UnicodeDecodeError:’gbk’codec can’t decodebyte Oxae406:illegal multibyte sequence 的错误。
--force 强制执行，当生成目录下的requirements.txt存在时覆盖。

编写Dockerfile

接下来，我们需要编写一个Dockerfile来定义如何构建Docker镜像。在应用程序的根目录中创建一个名为Dockerfile的文件，并在其中编写以下内容：

# 使用Python作为基础镜像FROM python:3.9# 设置工作目录WORKDIR /app# 复制应用代码到容器中COPY . /app# 安装依赖项RUN apt-get update && apt-get install -y libgl1-mesa-glxRUN pip install -i https://mirrors.aliyun.com/pypi/simple/ --no-cache-dir -r requirements.txt# 暴露应用端口EXPOSE 5000# 设置启动命令CMD ["python", "run.py"]

上述Dockerfile文件中，我们使用了Python 3.9作为基础镜像，设置了工作目录为/app，并将应用代码复制到容器中。然后，通过pip install命令安装了应用的依赖项，同时使用了阿里云的镜像，下载速度更快，并通过EXPOSE指令暴露了应用的端口。最后，通过CMD指令设置了容器的启动命令。

即使是你项目中目录文件很多的，也是放置同样的位置。

构建Docker镜像

在命令行中，进入应用程序的根目录，并运行以下命令来构建Docker镜像：

docker build -t flask-app .

上述命令将根据Dockerfile文件构建一个名为flask-app的Docker镜像。构建过程可能需要一些时间，取决于你的网络状况和应用程序的大小。

运行Docker容器

构建完成后，我们可以使用以下命令来运行Docker容器：

docker run -p 8888:8888 flask-app

上述命令将会在服务器的8888端口上运行刚刚构建的Docker容器。你可以通过访问http://ip(服务器ip):8888来查看Flask应用的运行结果。

总结

通过本文的介绍，我们详细了解了如何使用Docker来部署Python Flask应用程序。首先，我们创建了一个简单的Flask应用，并编写了Dockerfile来定义如何构建Docker镜像。然后，我们使用docker build命令构建了Docker镜像，并使用docker run命令运行了Docker容器。使用Docker可以实现应用程序的快速部署和跨平台运行，大大提高了开发和部署的效率。希望本文对你理解和使用Docker部署Python Flask应用有所帮助！

【强化学习的数学原理-赵世钰】课程笔记（六）随机近似与随机梯度下降

2024-06-04T07:16:09.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/139443499

参考引用

【强化学习的数学原理-赵世钰】课程笔记（六）随机近似与随机梯度下降

一.内容概述

背景：

本次课学习随机近似理论（Stochastic Approximation）和随机梯度下降（Stochastic Gradient Descent）。因为下节课我们要介绍 Temporal-Difference learning，这是一个无模型的强化学习算法，下节课与上节课介绍的有一个知识的鸿沟，比较难理解。实际上，Temporal-Difference learning 是 Stochastic Approximation 的一个特殊情况。因此，这节课先介绍背景知识
在上一讲中，我们介绍了蒙特卡洛学习法（Monte-Carlo learning）。
在下一讲中，我们将介绍时差（TD）学习（temporal-difference (TD) learning）。
在本讲座中，我们将按下暂停键，以便做好更充分的准备。

为什么？

TD算法（temporal-difference (TD) learning）的思想和表达方式与我们目前学习的算法截然不同。
第一次看到 TD 算法时，都会疑惑为什么当初要设计这些算法，为什么它们能有效地工作。

在本次课中：

我们将通过介绍基本的随机逼近（SA）算法，填补上一讲和下一讲之间的知识空白。通过介绍基本的随机近似（SA）算法（basic stochastic approximation (SA) algorithms），我们将填补上一讲和下一讲之间的知识空白。
我们将在下一讲中看到，时差算法是一种特殊的 SA 算法（temporal-difference algorithms are special SA algorithms）。因此，理解这些算法会容易得多。

本节课内容：

1.激励性实例（Motivating examples）：首先介绍 mean estimation，也就是估计一个随机变量的 expectation，因为我们想用这个例子说明什么是 non-incremental（非增量式），什么是 incremental（增量式）。实际上要估计 $\mathbb{E}[X]$ 有两种方法：non-incremental 方法就是比如有一万个采样，要等所有采样都采到了再一次性求平均，得到 $\mathbb{E}[X]$ 的一个近似；incremental 的思想是开始的时候对他有一个估计，这个估计可能不准但是没关系，我得到一个采样我就用这个采样来更新我的估计，得到一个采样就更新一次，慢慢的估计会越来越准确，这就是增量式的思想，它的好处是不需要等全部样本全部集齐，在收集样本的过程中就可以有一些估计尽管不太准确，但可以使用，会越来越准确。
2.Robbins-Monro 算法（RM 算法）：是随机近似理论（Stochastic Approximation）中非常经典的一个算法，求解 $g(w) = 0$ 这样一个方程，求解 $w$ 使得这个方程成立。不需要知道 $g(w)$ 长什么样子，它的表达式，它的梯度导数全都不需要就可以被求出来。
3.随机梯度下降（Stochastic Gradient Descent）：是 RM 算法的一个特殊情况
4.batch gradient descent，mini-batch gradient descent 和 stochastic gradient descent（批量梯度下降，微型批量梯度下降和随机梯度下降）（BGD，MBGD 和 SGD）
5.总结

二.激励性实例（Motivating examples）

这部分介绍一个 mean estimation 的算法，如何通过迭代的方式去求一个期望（expectation）

重温上节课学过的平均值估计问题（Revisit the mean estimation problem）

考虑一个随机变量 $X$
我们的目标是估计它的期望 $\mathbb{E}[X]$
假设我们收集了一些独立同分布的采样
对采样求平均值，认为是 $\mathbb{E}[X]$ 的近似
上面这种近似方法就是蒙特卡罗估计的基本思想。
当有足够多的数据的时候，采样的平均值会逐渐收敛到它真实的期望 $\mathbb{E}[X]$

为什么我们如此在意平均值估计问题（mean estimation problem）？

强化学习（RL）中的许多量，如动作值和梯度（action values and gradients），都被定义为期望值，都需要用数据去估计。

新问题： 如何计算平均值 $\bar{x}$ ？
$\mathbb{E}[x]\approx \bar{x}: = \frac{1}{N}\sum^{N}_{i = 1}x_i$
有两种方法：

第一种方法： 很简单，就是收集所有样本，然后计算平均值。

这种方法的缺点是，如果要在一段时间内逐个（one by one）收集样本，我们就必须等到所有样本都收集完毕。我们必须等到所有样本都收集完毕再求平均。

第二种方法： 可以避免这一缺点，因为它是以递增（增量式的）（incremental）和迭代（iterative）的方式计算平均值的。基本思路就是来几个就先计算几个，这样效率更高。

下面详细介绍第二种方法

关于该算法的说明：

这种算法的优势在于它是渐进式的。一旦收到样本，就可以立即获得平均值估计值。然后，平均估算值就可以立即用于其他目的。在第 $k$ 步的时候，我不需要把前面所有的 $x_i$ 全部加起来再求平均，只需要通过上式一步的计算就可以得到一个新的平均数
这个算法代表一种增量式的计算思想：在最开始的时候因为数据量比较小， $w_k$ 难以非常精确的逼近 $\mathbb{E}[X]$ ，即由于样本不足，平均值估计在开始时并不准确（即 $w_k \neq \mathbb{E}[X]$ 。不过，有总比没有好，总比一直等到最后才能有一个数来得到一个平均数要强。在这个过程中 $w_k$ 就算不精确，也可以用到其它任务中。随着样本的增多，数据越来越大， $w_k$ 也会越来越精确的逼近 $\mathbb{E}[X]$ ，估计值会逐渐提高（即当 $k \rightarrow \infty$ 时， $w_k \rightarrow \mathbb{E}[X]$ ）。

此外，这个算法也可以进一步推广：

还可以考虑一种表达式更一般的算法：

这种算法还能收敛到平均值 $\mathbb{E}[X]$ 吗？ 我们之后将证明，如果 {αk} 满足一些温和的条件（satisfy some mild conditions），答案是可以的。
我们还将证明，这种算法是一种特殊的 SA 算法（Stochastic Approximation algorithm），也是一种特殊的随机梯度下降算法（stochastic gradient descent algorithm）。
在下一讲中，我们将看到时差算法(the temporal-difference algorithms)有类似（但更复杂）的表达式。

三.Robbins-Monro 算法（RM 算法）：

是随机近似理论（Stochastic Approximation）中非常经典的一个算法

1.算法描述

随机近似（Stochastic approximation，SA）究竟是什么：

SA 指的是 解决寻根（方程求解）或优化问题 的一大类随机迭代算法。SA refers to a broad class of stochastic iterative algorithms solving root finding or optimization problems.（随机算法就是里面会涉及到对随机变量的采样）
与许多其他寻根（方程求解）算法（如基于梯度的方法gradient-based methods，梯度下降或梯度上升）相比，SA 的强大之处在于它不需要知道目标函数的表达式或其导数或者梯度的表达式。

Robbins-Monro (RM) 算法:

这是随机逼近领域（in the field of stochastic approximation）的一项开创性工作。
著名的随机梯度下降算法（stochastic gradient descent algorithm）是 RM 算法的一种特殊形式。
它可以用来分析开头介绍的均值估计（mean estimation）算法。我们前面介绍的 mean estimation 算法也是一种特殊的 RM 算法。

问题陈述： 假设我们想找出方程的根
$g(w) = 0$
其中 $w \in R$ 是待解变量， $g:\mathbb{R}\rightarrow \mathbb{R}$ 是一个函数。 $w$ 和 $g$ 全都是标量

这个问题看似很简单，但是很有用，因为它广泛的存在。许多问题最终都可以转化为这个寻根问题，比如优化问题：例如，假设 $J(w)$ 是一个需要最小化的目标函数，需要优化 $J(w)$ 那么方法就是求解下面的这个方程，就是 $J(w)$ 的梯度等于 0，这个梯度等于 0 是 $J(w)$ 达到最大或最小的一个必要条件，并不是充分条件，但我们可以找到一个局部的极值。或者当 $J(w)$ 只有一个极值的时候，这个就变成一个充分必要条件。
总之，优化问题可以写成 $g(w) = 0$ 的形式，这时候 $g(w)$ 指的就是梯度

$g(w) = \triangledown _{w}J(w) = 0$

请注意， $g(w) = c$ 这样的方程（c 为常数），也可以通过将 $g(w)-c$ 改写为一个新函数而转换为上式 $g(w)-c = 0$ 。

如何求解 g(w) = 0 的根？

有两种情况：

基于模型： 如果已知 $g$ 或者其导数的表达式，有很多数值算法可以解决这个问题。
无模型： 如果函数 $g$ $g$ 的表达式未知呢？
- 例如，函数由人工神经元网络表示。可以通过神经网络求解， $y = g(w)$ ，这个神经网络的输入是 $w$ ，输出是 $y$ ，神经网络里面其实就是 $g(w)$ 。常见的全连接神经网络其实就是做一个函数的近似，神经网络中我是不知道表达式的，现在问题就是输入什么样的 $w$ 能得到一个 0 的输出？

求解 $g(w) = 0$ 这样的问题（求这个方程的根）可以用 RM 算法来求解，下面正式介绍 RM 算法：

目标是求解 $g(w) = 0$ ，假设最优解是 $w^*$

RM算法是个迭代式的算法，对 $w^*$ 第 $k$ 次的估计是 $w_k$

【强化学习的数学原理-赵世钰】课程笔记（五）蒙特卡洛方法

2024-05-28T01:33:42.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/139253975

一.内容概述

上节课介绍了 model-base 的方法，这节课将介绍 model-free 的方法，上节课的 policy iteration 的方法是这节课的基础，我们把 policy iteration 当中基于模型的部分替换成不需要模型的部分就得到了今天的算法。
在这门课中，把 value iteration 和 policy iteration 统称为 model-base reinforcement learning，但是更准确来说，它们应该称为动态规划（dynamic programming）的方法。model-base reinforcement learning 简称 MBRL，这个研究的是我用数据估计出一个模型，再基于这个模型进行强化学习。
这节课介绍没有模型的强化学习方法，首先我们要学习随机变量的期望值，因为之前提到的 state value 和 action value 全都是随机变量的期望值，对随机变量采样的平均值可以作为 E[X] 的一个很好的近似。所以没有模型要有数据，没有数据要有模型才能学习。

课程大纲：

1.激励性实例（Motivating examples）：介绍蒙特卡洛估计（Mento Carlo Estimation）的基本思想

2.介绍三个基于蒙特卡洛（MC）强化学习的算法（这三个算法环环相扣，前一个是后一个的基础）

（1）最简单的基于 MC 的 RL 算法：MC basic（我们把上节课介绍的 policy iteration 方法当中基于模型的部分替换成不需要模型的部分（依赖于数据的）就得到了这个算法。是最简单的基于蒙特卡洛强化学习的算法，简单到这个算法在实际中不能用，因为效率很低，但他有利于揭示怎么样把模型给去掉，不基于模型来实现强化学习的这样一个核心idea，即它可以帮助理解之后的，因为强化学习是一环扣一环的）

（2）更高效地使用数据：MC Exploring Starts（把 MC basic 复杂化）

（3）MC 没有探索就启动：Algorithm: MC ε-Greedy（去除掉 exploring starts 这样的 assumption）

二.激励性实例（Motivating examples）

从 model-based 强化学习过渡到 model-free 的强化学习，最难以理解的就是我们如何在没有模型的情况下去估计一些量？（How can we estimate something without models）

最简单的方法：蒙特卡洛估算（Monte Carlo estimation）。

下面通过一个例子说明蒙特卡洛估算： 投掷硬币

投掷硬币后的结果（正面或背面朝上）用随机变量（random variable） X 表示

如果结果为正面朝上，则 X = +1
如果结果是背面朝上，则 X = -1

目的是计算 $\mathbb{E}[X]$ （X 的平均数，X 的期望）。

这里有两种方法计算期望

方法 1 ：基于模型的（model-based）

假设概率模型为（我们知道随机变量（random variable） X 的概率分布（probability distribution））：正面朝上和背面朝上的概率都是 0.5
$\qquad \qquad p(X = -1) = 0.5$

那么随机变量（random variable） X 它的期望（expectation）就可以简单的通过定义计算：
$\mathbb{E}[X] = \sum_{x}xp(x) = 1 \times 0.5+(-1)\times 0.5 = 0$
**问题：**可能无法知道精确的概率分布情况（precise distribution）！！

方法 2 ：无模型的（model-free）

基本思想：多次掷硬币，做很多次实验，得到很多的采样，然后计算所有采样的平均结果。

假设我们做了 N 次实验，这 N 次的实验结果分别是 $x_1,x_2,…,x_N$ ，得到一个样本序列： $\dots,x_N}$ 。那么，均值可以近似为：
$\mathbb{E}[X]\approx \bar{x} = \frac{1}{N}\sum_{j = 1}^N x_j$
期望（expectation）用 $\bar{x}$ 来近似，认为 $\bar{x}$ 是 $\mathbb{E}[X]$

这就是蒙特卡洛估计的基本思想！

**问题：**用蒙特卡洛估计（Mento Carlo Estimation）是否精确？

当 N 较小时，近似值不准确。
随着 N 的增大，近似值会越来越精确。

如上图所示，我们已知真实的期望（expectation）是 0，随着做平均的样本数越多，样本的平均值（expectation）越接近真实的期望（expectation）0

上面这样直观的解释有数学理论做支撑（大数定律 Law of large Numbers）

iid：独立同分布样本（independent and identically distributed sample）

总结：

蒙特卡罗估计是指依靠重复随机抽样来解决近似问题的一大类技术。凡是需要做大量的采样实验，最后用实验的结果近似的的方法，都可以称为蒙特卡洛估计的方法。
我们为什么要关注蒙特卡罗估计？因为它不需要模型！
为什么要关注均值估计（mean estimation）？为什么用蒙特卡洛来估计期望（expectation）？
- 因为状态值（state value）和行动值（action value）被定义为随机变量的期望值（expectation）！

三.最简单的基于 MC 的 RL 算法：MC basic

1.将策略迭代转换为无模型迭代（Convert policy iteration to be model-free）

理解算法的关键是理解如何将策略迭代算法（policy iteration algorithm）转换为无模型算法（model-free）。我们知道策略迭代算法（policy iteration algorithm）是依赖于模型的，但是实际上我们可以把它依赖于模型的那部分给替换掉，替换成 model-free 的模块

应充分理解策略迭代（policy iteration algorithm）。
应理解蒙特卡罗均值估计（Monte Carlo mean estimation）的思想。

接下来看策略迭代算法（policy iteration algorithm）如何转换为无模型（model-free）的：

策略迭代（policy iteration algorithm）的每一次迭代都有两个步骤：

1.策略评估：我有一个策略 $\pi_k$ ，通过求解贝尔曼公式，我要求出来它的状态值（state value） $v_{\pi_k}$
2.策略改进：知道 $v_{\pi_k}$ 之后就可以做改进，求解一个最优化问题得到一个新的策略 $\pi_{k+1}$ 。（通过选择最大的 $q_{\pi_k}$ 得到新的策略 $\pi_{k+1}$ ）

这里面非常核心的量是 $q_{\pi_k}(s,a)$

要计算动作值（action value） $q_{\pi_k}(s,a)$ 有两种算法：

**方法 1 需要模型：**这就是 value iteration 这个算法所使用的，第一步得到了 $v_{\pi_k}$ ，第二步这些概率模型都是知道的，所以就可以求出来 $q_{\pi_k}(s,a)$ （这些概率代表系统的模型）
$q_{\pi_k}(s,a) = \sum_r p(r|s,a)r+\gamma \sum_{s'}p(s'|s,a)v_{\pi_k}(s')$

【强化学习的数学原理-赵世钰】课程笔记（四）值迭代与策略迭代

2024-05-27T04:25:56.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/139234757

参考引用

【强化学习的数学原理-赵世钰】课程笔记（四）值迭代与策略迭代

一.内容概述

本节课讲的是 model base 的算法，下节课将会介绍 model-free 算法。值迭代和策略迭代和截断策略迭代都是求解最优状态值和最优策略的办法

值迭代算法（value iteration algorithm）：第三章的贝尔曼最优公式中，提到了有一个算法能求解贝尔曼最优公式，这个算法实际上就是值迭代算法。
策略迭代算法（policy iteration algorithm）：在第五章，不需要模型的蒙特卡洛方法中有重要应用。是下节课，蒙特卡洛学习（Mente Carlo learning）的一个基础
截断策略迭代算法（Truncated policy iteration algorithm）

值迭代算法和策略算法是截断策略迭代算法的极端情况

上面三个算法都有两个子步骤：policy update 和 value update
在当前时刻我有一个不太好的策略，我估计一下这个策略它的值，也就是做一下策略评价，我得到值之后就根据这个值改进一下策略，改进完了策略得到新的策略再估计它的值然后再改进策略，所以 policy update 和 value update 这两个步骤会不断迭代，最后就能找到最优的策略。
这样一个思想不只用在第四章当中，后面所有强化学习算法都是这样做的，都是值和策略，值和策略不断地迭代，只不过具体算法形式可能不同。

二.值迭代算法（value iteration algorithm）

这是上一节课由收缩映射定理（Contraction mapping theorem）给出的一个算法，这节课给它一个名字，给它两个步骤，正式的介绍出来：

贝尔曼最优公式（矩阵向量形式）：
$f(v) = \max \limits_{\pi}(r_{\pi}+\gamma P_{\pi}v)$
如何求解贝尔曼最优公式？ 在上一讲中，我们知道收缩映射定理提出了一种迭代算法：只要用下面这个算法就可以求出它的最优策略（optimal policy）和最优的状态值（optimal state value）
$f(v_k) = \max \limits_{\pi}(r_{\pi}+\gamma P_{\pi}v_k),\qquad k = 1,2,3 \dots$
其中 $v_0$ 可以是任意值。

这种算法最终能找到最优状态值和最优策略。
这种算法称为值迭代（value iteration）！
我们将看到，我们所学的关于 BOE 的数学知识终于得到了回报！

算法的矩阵向量形式如下：
$f(v_k) = \max \limits_{\pi}(r_{\pi}+\gamma P_{\pi}v_k),\qquad k = 1,2,3 \dots$
可以分解为（be decomposed）两个步骤：

第 1 步：在 vk 给定的情况下进行策略更新（policy update），求解 π，可以得到 πk+1 。这一步是处理方程右边的优化问题：
$\pi_{k+1} = arg \ \max \limits_{\pi}(r_{\pi}+\gamma P_{\pi}v_k)$

其中 $v_k$ 是给定的。

第 2 步：价值更新（value update）。把上一步求解出的 $\pi_{k+1}$ 带入第一个式子，第一个式子中下标的 $\pi$ 全部变成 $\pi_{k+1}$ ，然后根据 $v_k$ 可以求解出来 $v_{k+1}$
$v_{k+1} = r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}}v_k$

问题： $v_k$ 是状态值（state value）吗？

不是，因为不能确保 $v_k$ 满足贝尔曼方程。如果上式中，左边是 $v_k$ ，那它确实是一个贝尔曼公式，那么 $v_k$ 就是一个状态值（state value），但是左边并不是 $v_k$ ，而是 $v_{k+1}$ 。所以这里的 $v_k$ 就是一个向量，就是一个值，可以是任意的值，并不是状态值（state value）

理解：

$v_k$ 只是某次迭代过程中没有收敛的一个值
是估计的state value,后面可以求解出最优的state value
因为不在在同一个policy下的 $v_k$ 迭代，所以没有收敛到当前policy下的state value
这就是我们胡乱假设的一个state value吧，老师说不算的意思大概是它还没迭代到位
其实是state value只是还没收敛
只能说 $v_k$ k无穷时， $v_k$ 的物理意义为state的估计。否则只是估计过程中的一个参数，没有意义
意思是最后无穷/有限多步收敛到的值才是state value吗？

接下来，我们需要研究元素形式（elementwise form），以便实现算法。

矩阵向量形式（Matrix-vector form）有助于理论分析（theoretical analysis）。
元素形式（elementwise form）有助于实现（implementation）。

1.第 1 步：策略更新（policy update）

如果有多个action有相同的 $q_k(s,a)$ ，那么可以任意选取一个，数学上都能达到最优
压缩映射定理 $v^*$ 存在且唯一
$v^*$ 唯一，但策略不一定唯一，有两个最优策略，一般随机选一个

2.第 2 步：价值更新（value update）

3.流程总结，程序概要，并写成伪代码

对每一个 s，一开始有个 $v_k(s)$ ， $v_k$ 最开始可以从 $v_0$ 或者 $v_1$ 开始——>从 $v_k$ 可以计算得到 $q_k$ ——>得到 $q_k$ 后我知道哪个 $q_k$ 是最大的，然后知道它对应的 action 是什么，就可以得到贪婪策略（greedy policy） $πk+1$ ——>然后得到 $v_{k+1}$ ， $v_{k+1}$ 就对应最大的 $q_k$

这个过程可以写成下面的伪代码：

4.举例

用值迭代算法（value iteration algorithm）为下面的 a 图求解出一个最优的策略，图 b,c 是我们在使用算法进行迭代的过程中，每次我们都会得到一个策略 $\pi_{k+1}$ ，图 b,c 就是得到的策略 $\pi_{k+1}$ ，把它画在图中。

q 表（q-table）： $q(s,a)$ 的表达式（当给出 $v$ 的时候，能求出 $q$ ）

$k = 0$ ，先选取 $v_0$ ，可以任意选取，简单起见全选0，然后把 $v_0$ 带入刚才的 q-table 当中去：

先进行策略更新，针对每一个状态，我们去看哪个 $q_k$ 是最大的，那么它对应的新的策略就可以求出。对 $s_1$ 而言，选取动作 $a_3$ 和 $a_5$ 对应的 $q$ 最大，所以 policy 可以在最大的 $q$ 里面随便选一个（第 $k$ 步是对所有 $s$ 进行更新）

再进行价值更新，上面选出的最大的 $q_k$ ，作为新的 $v_1$ 进行下一步的使用

这个策略绘制出图片就是上面的 b 图，可以看出在 $s_2$ ， $s_3$ 和 $s_4$ 上都已经达到了最优，可以到达目标。但是在 $s_1$ 上还没有达到最优，因为当前策略是原地不动，但是最优策略需要到达目标。再进行下一步迭代：

$k = 1$ ，把上次迭代得到的 $v_1$ 带入刚才的 q-table 当中去：

这个策略绘制出图片就是上面的 c 图，可以看出在 $s_1，s_2 ，s_3 和 s_4$ 上都已经达到了最优，可以到达目标，已经求出来了最优策略。还可以进行下一步迭代，直到达到迭代终止条件：

三.策略迭代算法（policy iteration algorithm）

1.算法介绍

这是这节课新介绍的一个算法，下节课会在这个算法的基础上，得到一个 model free 的 reinforcement learning 的算法

算法描述：

给定随机初始策略 $π_0$ （任意给定，可能是不好的策略，之后会迭代找到好的策略）

每次迭代分为两个步骤：

步骤 1：策略评估（PE）（Step 1: policy evaluation (PE)）

之前提过，policy evaluation 就是我给定一个策略 $π_k$ （最开始是 $π_0$ ），可以求解它对应的贝尔曼公式，得到 $π_k$ 对应的 state value $v_{π_k}$ ，这样的过程就叫策略评估（policy evaluation）

步骤 2：策略改进 (PI)（Step 2: policy improvement (PI)）

上一步求出来了 $v_{π_k}$ ，我求解优化问题得到一个新的策略 $π_{k+1}$ ， $π_{k+1}$ 比 $π_k$ 更好

最大化是分量式的！

理解：

policy iter 相当于比value iter提前了一步，从pi到v然后再经历完整的value iter到pi
Policy iteration algorithm和Value iteration algorithm的区别就是你以policy为主体还是以state value为主体。
PE里面包含了一层value iteration
其实在这两个iteration都会更新policy和valuie，只是先后的问题而已

该算法可以得到一个序列，用下面的过程来表示：最开始猜的 $π_0$ 肯定是不好的，然后我做 policy evaluation 得到 $v_{π_0}$ ，然后做 policy improvement 得到 $π_1$ …

问题

问题 1：在策略评估（policy evaluation）步骤中，如何通过求解贝尔曼方程得到状态值（state value） $v_{π_k}$ ？
问题 2: 在策略改进（policy improvement）步骤中，为什么新策略 $π_{k+1}$ 比 $π_k$ 更好？
问题 3：为什么这种迭代算法能最终找到最优的策略？
问题 4: 这种策略迭代算法（policy iteration algorithm）与前一种值迭代算法（value iteration algorithm）之间的关系是什么？

问题 1：在策略评估（policy evaluation）步骤中，如何通过求解贝尔曼方程得到状态值（state value） $v_{π_k}$ ？

假设给定一个策略（policy） $π_k$ ，我们可以列出来它的贝尔曼公式（ Bellman equation）如下：
$v_{\pi_k} = r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}$
有两种方法可以求解这个贝尔曼公式得到状态值（state value）：

（1）闭式解为（The closed-form solution is），即状态值（state value）的解析表达式为：
$v_{\pi_k} = (I-\gamma P_{\pi_k})^{-1}r_{\pi_k}$
这个方法我们不太用，因为要求逆矩阵，经常用的是下面的方法

（2）迭代解决（iterative solution）方案是：（ $v_{π_k}$ 和 $v_{π_{k+1}}$ 都是向量，包含了不同时刻的所有状态值）最开始对 $v_{π_k}$ 有一个猜测，不断迭代就可以得到 $v_{π_k}$
$v_{\pi_k}^{(j+1)} = r_{\pi_k}+\gamma P_{\pi_k}v_{\pi_k}^{(j)},\qquad j = 0,1,2,\dots$

已在贝尔曼方程中学习过。
policy evaluation 是 policy iteration 这个算法的一步，这一步又依赖于一个迭代的算法（即上面的迭代解决（iterative solution）方案）。
策略迭代算法（policy iteration algorithm）是一种迭代算法，在策略迭代算法的策略评估（policy evaluation）步骤中嵌入了另一种迭代算法（iterative solution）（相当于有一个大的迭代算法，里面有一步又嵌入了一个小的迭代算法）

问题 2: 在策略改进（policy improvement）步骤中，为什么新策略 $π_{k+1}$ 比 $π_k$ 更好？

$π_{k+1}$ 是求解下面这个（ $v_{π_k}$ 给定的）式子所得到的，可以证明 $v_{π_{k+1}}$ 一定大于等于 $v_{π_k}$ ，所以 $π_{k+1}$ 比 $π_k$ 更好

问题 3：为什么这种迭代算法能最终找到最优的策略？

由于每次迭代都会改进策略，我们知道：最优的状态值（state value）是 $v^$
$v_{\pi_0}\le v_{\pi_1}\le v_{\pi_2}\le \dots \le v_{\pi_k}\le \dots \le v^$ $v_{π_{0}} \leq v_{π_{1}} \leq v_{π_{2}} \leq \dots \leq v_{π_{k}} \leq \dots \leq v^{*}$
因此， $v_{π_k}$ 会不断增加并收敛（keeps increasing and will converge）。仍需证明它收敛于 v*：

个人的理解是，PI是多轮的VI，VI只为了达成目的，但策略不一定最好，Pi相当于BFS算法一样，把最好的策略都完完全全走了一遍流程（因为只有求出贝尔曼才能说明他最好）

问题 4: 这种策略迭代算法（policy iteration algorithm）与前一种值迭代算法（value iteration algorithm）之间的关系是什么？

问题 3 给出的那个定理的证明（就是上面那个定理），即若要证明 policy iteration 的算法是收敛的，实际上用到了 value iteration 算法是收敛的这样的一个结果，所以它是基于 value iteration 算法的一个结果。

另外 policy iteration 和 value iteration 实际上是两个极端，是一个更 general 的截断策略迭代算法（Truncated policy iteration algorithm）的两个极端，稍后会介绍。

2.policy iteration algorithm 的具体实现

为了实现，我们要研究它的元素形式（Elementwise form）

步骤 1：策略评估（PE）（Step 1: policy evaluation (PE)）

步骤 2：策略改进 (PI)（Step 2: policy improvement (PI)）

流程伪代码：

值迭代和策略迭代的区别：

有差别，值迭代每一步得到的value是虚假的，但策略迭代每一步得到的value是真实的
区别是先求策略还是先求state value的问题
策略迭代里面包含值迭代，策略迭代时间复杂度更大
其实不同在于值迭代不同迭代次数间的state value是严格根据不动点迭代运算得到的
policy iteration的终点应该是policy收敛不变，这比value收敛快很多
确实，值迭代是严格遵守不动点迭代的
这里对比值迭代算法，策略迭代算法实际就是多了一块策略评估。如果策略评估直接给定v0那么这个算法就是值迭代
可以把值迭代的value update看成一次策略评估，只不过评估的效果不是很好。补充一下，不好的原因是因为没有加入最好策略的计算
Policy iteration先通过策略评估选取V_k，而不是随机初始化一个直接用了
value感觉虽然在更新pi，但是实际上没有用pi，policy实际上是用了pi来计算v的

3.例子

（1）例子1

图 b 是最优策略，在 s1 的时候往右走，在 s2 的时候静止不动。图 a 是初始策略，都往左走是不合适的，我们用 policy iteration 的算法得到图 b 这样一个最优策略

k=0

该例子比较简单，该策略在一次迭代后达到最优！在您的程序设计中，应该继续运行，直到满足停止标准为止。
现在你知道了另一种搜索最优策略（optimal policies）的强大算法！现在，让我们应用它，看看能发现什么。

（2）例子2

例子的基本设置：

现在要做的是对这样一个 5×5 的网格，求一个最优策略。下面这些图画的是，我从最开始随便给定的一个策略 $π_0$ ，求出 $v_{π_0}$ ，policy improvement 得到 $π_0$ ，然后policy evaluation 得到 $v_{π_1}$ ，一直下去直到得到 $π_{10}$ 和 $v_{π_{10}}$

让我们来看看中间策略和状态值。

策略和状态值的有趣模式

可以看到，中间的策略不好，但是策略 $π_{10}$ 已经是一个最优的策略了，从任何一点（图中任何一个状态）出发都能到达目标区域。我们设置的 $r_{forbidden}$ 比较大，所以会避开障碍。
从图中还能看出一个现象，比较接近目标的状态的策略会先变好（从图中绿色的箭头可以看出），远离目标的状态的策略会后变好。从直观上这是因为，在某一个状态，我选择它的 greedy action，也就是 action 对应的最大的动作值（action value） $q_π(s,a)$ 的时候，严重依赖于其他状态的策略，如果其他状态的策略是不好的乱七八糟的，这时候虽然选一个最大的动作值（action value） $q_π(s,a)$ ，但是可能也是没有意义的。
当这个状态周围没有状态能到达目标区域时，它也不会到达目标区域，当有状态有能够到达目标区域的策略时，这个状态新的策略也能到达目标区域。

四.截断策略迭代算法（Truncated policy iteration algorithm）

这是前两个值迭代算法（value iteration algorithm）和策略迭代算法（policy iteration algorithm）的一般化推广；值迭代算法（value iteration algorithm）和策略迭代算法（policy iteration algorithm）是截断策略迭代算法（Truncated policy iteration algorithm）的特殊情况

针对Policy iteration ，它是从一个初始的策略 $\pi_0$ 出发，这个策略可能是非常不好的，任意猜测的这样一个策略，然后在第 k 个 iteration 当中，它包含两个步骤：

第一个是Policy evaluation(PE)，也就是在第 k 步当中，我又一个策略 $\pi_k$ , 然后这一步我要求解这个 $v_{\pi_k}$ ，从这个贝尔曼公式当中。
第二个是Policy improvement(PI)：根据刚才求出的 $v_{\pi_k}$ ，然后再求解一个这样优化的式子，我可以得到一个新的策略 $\pi_{k+1}$ ，然后再不断地迭代下去。

针对Value iteration ，它不是从一个初始的策略 $\pi_0$ 出发，它是从一个值 $v_0$ 出发，这个值 $v_0$ 可以是任意的一个值，然后通过值迭代算法它最后能收敛到 $v^*$ （最优状态值：Optimal state value），然后在第 k 个 iteration 当中，它包含两个步骤：

Policy update（PU）：在第 k 步当中，已知 $v_k$ ，求解优化的式子得到 $\pi_{k+1}$ 。一个新的策略。
Value update（VU）：我刚才知道了 $\pi_{k+1}$ ，还有 $v_k$ ，根据其他几个已知量，就可以求出这个 $v_{k+1}$ 。然后再这样不断地迭代下去。

这两种算法非常相似：

理解：

$u$ 不是真实的状态价值
$u_0$ 可以看成未收敛的state value，就是一个中间值
这个前面提到过了，状态价值（state value）是需要贝尔曼方程求解得到的，而这里 u0 只是由策略求出来的一个值，并不是状态价值

让我们仔细比较一下这些步骤：

理解：

值迭代的状态值 $v$ 经过一步计算获得策略迭代的状态值 $v$ 需要迭代计算获得
开始一个需要policy一个不要。value更新时Policy iteration每一个value的求解都得Bellman公式求解，Value iteration直接一步带入
policy iteration直接一步到位，value iteration 还在迭代
太妙了，这里 $v$ 的下标是 $\pi$ 的时候，表示一个值函数；是数字的时候，不表示值函数了，只是一个迭代中的变量
确实，值迭代中外框架是用一个序列逼近真实的 $v$ ，所以值迭代里的v你可以理解为v的估计\中间计算步骤，而策略迭代里的v是通过PE评估一个确定的策略得到的
value iteration: v-p-v-p-v-p-v-p-…；policy iteration: p-vvvvv…-p-vvvvv…-p-vvvvv.
值迭代算法只迭代一次，策略迭代算法迭代无穷多次

由上图可知，在第四步中 value iteration 只计算了一步，就得到 $v_1$ ，而 policy iteration 要计算无穷多步才能得到 $v_{\pi_1}$ 。那么自然能想象到有没有一个中间步，只计算 $j$ 次，把 $v_{\pi_1}^{(j)}$ 作为一个新的量，把它作为新的值放到下一步计算策略，这样的算法叫截断策略迭代算法（Truncated policy iteration algorithm），之所以是 Truncated，因为从 $j$ 到 $\infty$ 的这些步骤全都被截断了。
所以截断策略迭代算法（Truncated policy iteration algorithm）是前两个值迭代算法（value iteration algorithm）和策略迭代算法（policy iteration algorithm）的一般化推广。
- 当 $j = 1$ ，截断策略迭代算法（Truncated policy iteration algo rithm）变成了值迭代算法（value iteration algorithm）；
- 当 $j = \infty$ ，截断策略迭代算法（Truncated policy iteration algorithm）变成了策略迭代算法（policy iteration algorithm）
在实际当中策略迭代算法（policy iteration algorithm）不存在，因为不可能计算无穷多步，我们经常做的是判断 $v_{\pi_1}^{(j)}$ 和 $v_{\pi_1}^{(j-1)}$ 这两个它们之间的 error 是否足够小，足够小就停止迭代，这样的话它仍然是计算了有限步。所以在实际当中即使我们要计算策略迭代算法（policy iteration algorithm）它也仍然是一个截断策略迭代算法（Truncated policy iteration algorithm）

伪代码：

收敛的意思就是，收敛到一个怎么迭代都不太会改变的值

因为没有计算无穷多步，所以此时的 $\ne v_{\pi_k}$ ，那么此时的截断是否会带来一些问题呢？比如是否会使整个算法不再收敛？

截断是否会削弱收敛性？下面给出一个定理：

考虑Policy iteration在策略评估步骤(PE)求解贝尔曼公式时的迭代算法

如果这个迭代算法的初始值比较特殊如 $v_{\pi_{k-1}}$ ，可以证明在这个迭代算法中， $v_{\pi_{k+1}}$ 一定是比 $v_{\pi_k}$ 大的，所以计算1 次也会增大，计算 j 次也会增大，计算 $\infty$ 也会增大 ( $\infty$ 次代价太大，用有限步即可)

刚才这个结果可以通过下图比较好的展示出来，这个图的横轴是 $k$ ，即 policy iteration 算法中的迭代次数 iteration 的索引（index），纵轴是值，简单起见，state value 只有一维。红线 $v^$ 代表最优状态值（optimal state value），其他曲线是上面三种算法，通过迭代都最终收敛到 $v^$ $v^{*}$

PI 的收敛证明基于 VI 的收敛证明。既然 VI 收敛，我们就知道 PI 收敛。

例子：

设置：与上一示例相同。以下是初始策略，目标是找一个最优策略

“截断策略迭代（Truncated policy iteration）-x”，其中 x = 1、3、6、100 指的是截断策略迭代算法，其中策略评估步骤（the policy evaluation step）运行 x 次迭代。
每个小图右上角标签上的数字意思是，每次在大的 Truncated policy iteration 中有一个嵌套的迭代的次数（在策略评估那一步 policy evaluation），如果是 value iteration 只迭代一次，如果是 policy iteration 则迭代无穷多次，把那个次数设为 x。
- 当 x=1 时，就是 value iteration，最上面一幅图，要到50多步的时候 $v_k$ 与 $v^*$ 的误差才小于 0.01；
- 如果 x=3，那么它20多步就小于 0.01 了，可以加快收敛速度；
- x=6，x=100的时候也可以加快收敛，但是效果越来越不明显。
上图横坐标是最外面的迭代次数，这里迭代的步数应该是外面PE，PI的步数

结论：

x 值越大，估计值收敛得越快。
但是，当 x 值越大时，增加 x 值的好处就会迅速减少。
在实际操作中，在策略评估步骤中运行少量的迭代，尽量不要每次计算一步，也不要计算很多步，尽量稍微多计算几步就能有很大收获。
外层循环相比内层循环要多计算很多东西，每一次迭代花费的时间不一样，所以找一个折中方案。让外层尽量少，内层又不至于过多

五.总结

【强化学习的数学原理-赵世钰】课程笔记（三）贝尔曼最优公式

2024-05-25T07:46:37.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/139198327

学习引用

【强化学习的数学原理-赵世钰】课程笔记（三）贝尔曼最优公式
 【强化学习的数学原理】课程：从零开始到透彻理解（完结）

内容梗概

1. 第三章主要有两个内容

（1）核心概念：最优状态值（optimal state value）和最优策略（optimal policy）。强化学习的目的就是寻找最优策略。

最优策略定义：我沿着这个策略能得到最大的状态值，沿着其他所有策略得到的状态值都没他大。

（2）基本工具：贝尔曼最优方程/公式（Bellman optimality equation）（BOE）：贝尔曼最优公式和最优策略有关系，使用贝尔曼最优公式分析最优策略，贝尔曼最优公式可以求解出最优策略和最优的 state value。

使用不动点原理分析，这个不动点原理告诉我们这个式子两个方面的性质：
第一个方面是我要求解最优策略，最优 state value，那么它们到底是否存在呢，这种存在性非常重要。虽然存在但是最优的策略不一定是唯一的，但是最优的状态值是唯一的，最优的策略可能是确定性的 deterministic，也可能是随机性的 stochastic；
另外一个方面是他能给出一个算法求解贝尔曼最优公式，把这个公式求解出来了自然就得到了最优的策略和最优的 state value，强化学习的目标也就达到了

2. 第二章大纲

（1）激励性实例（Motivating examples）

（2）最优状态值（optimal state value）和最优策略（optimal policy）的定义

（3）贝尔曼最优公式（BOE）：简介

（4）贝尔曼最优公式（BOE）：右侧最大化

（5）贝尔曼最优公式（BOE）：改写为 $v = f(v)$

（6）收缩映射定理（Contraction mapping theorem）

（7）贝尔曼最优公式（BOE）：解决方案

（8）贝尔曼最优公式（BOE）：解的最优性

（9）分析最优策略（Analyzing optimal policies）

二.激励性实例（Motivating examples）

绿色箭头代表策略 $\pi$

贝尔曼公式：

状态值（state value）：设 $\gamma = 0.9$ 。那么可以计算出：
$v_\pi(s_4) = v_{\pi}(s_3) = v_{\pi}(s_2) = 10 \qquad \qquad v_{\pi}(s_1) = 8$
动作值（action value）可以通过状态值计算，或者根据第二章公式计算：考虑 $s_1$ ， $s_1$ 共有 5 个 action ，每个 action 都有一个 state value 。

问题：当前的策略（policy）不好，因为在 $s_1$ 的时候往右走了，进入禁区，那么如何改进？

答案：我们可以根据动作值（action value）改进策略（policy）。

具体来说，当前策略 $\pi(a|s_1)$ 是：
$\pi(a|s_1) = \left{\begin{matrix}1& & a = a_2\\ 0& & a\ne a_2 \end{matrix}\right.$
在这个策略下我们已经计算出来了 action value，观察我们刚才获得的动作值（action value）：

我们发现 $a_3$ 对应的动作值（action value）最大，那么能不能选择 $a_3$ 作为一个新的策略呢。如果我们选择最大的动作值（action value）呢？那么，新策略（policy）就是：
$\pi_{new}(a|s_1) = \left{\begin{matrix}1& & a = a^$
其中： $q_\pi(s_1,a)$ 在 $a = a_3$ 时最大

其中， $a^*$ 对应 action value 最大的那个 action，在这个例子里面是 $a_3$

问题： 为什么选择 action value 最大的 action 这样做能改进策略？

直觉：动作值（action value）可用于评估动作，动作值本身就代表了 action 的价值，如果选择一个 action ，他的 action value 很大，意味着之后能得到更多的 reward，相应策略也比较好。
数学：并不复杂，将在本讲座中介绍。

只要我们一遍一遍去做，不断迭代，最后一定会得到一个最优策略。也就是说，首先对每个状态都选择 action value 最大的 action，选择完了一次，然后再来一次迭代得到一个新的策略，再迭代得到一个新的策略，最后那个策略一定会趋向一个最优的策略

三.最优策略（optimal policy）的定义

状态值（state value）可用于评估策略好或者不好：如果有两个策略 $\pi_1$ 和 $\pi_2$ ，它们在每个状态都有自己的状态值（state value），如果对所有的状态 $s$ ， $\pi_1$ 得到的 state value 都大于 $\pi_2$ 得到的 state value，则 $\pi_1$ 比 $\pi_2$ “更好”。
$v_{\pi_1}(s)\ge v_{\pi_2}(s)\qquad for \ \ all \ \ s \in S$

【强化学习的数学原理-赵世钰】课程笔记（二）贝尔曼公式

2024-04-07T07:39:25.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/137464758

一. 内容概述

1. 第二章主要有两个内容

（1）一个核心概念：状态值（state value）：从一个状态出发，沿着一个策略我所得到的奖励回报的平均值。状态值越高，说明对应的策略越好。之所以关注状态值，是因为它能评价一个策略的好坏。

（2）基本工具：贝尔曼公式（the Bellman equation）：

用于分析状态值，描述所有状态和状态值之间的关系，这个关系就是一个方程，一个等式。通过求解这个方程就可以求解出来一个给定策略的状态值，因此就可以评价这个策略的好坏。
求解贝尔曼公式进而得到一个策略所对应的状态值这样的一个过程被称为策略评价（policy evaluation），policy evaluation 在强化学习中是非常基础的一个概念，我评价了一个策略得到它的值，然后基于它的值再改进策略然后循环下去，最后就能得到一个最优的策略。

2. 第二章大纲

激励性实例（Motivating examples）
状态值（state value）
贝尔曼公式（ Bellman equation）：推导
贝尔曼公式（ Bellman equation）：矩阵向量形式
贝尔曼公式（ Bellman equation）：求解状态值（state value）
动作值：从 state value 过渡到 action value

二. 激励性实例（Motivating examples）

1. 例子1：为什么回报/收益（return）很重要？

（1）什么是回报（return）？

沿着轨迹获得的奖励（reward）的（折扣discounted）总和。

What is return? The (discounted) sum of the rewards obtained along a trajectory.

（2）为什么回报（return）很重要？

下图的第三个表示，这个策略在 s1 状态有百分之 50 的概率向右，有百分之 50 的概率向下。

问题： 从起点 $s_1$ 出发，哪项策略（policy）是 “最好的”？哪项 “最差”？

直觉： 第一个最好，第二个最差，因为第二个进入了forbidden area。第三个策略是不好也不差，它有一定的概率进入forbidden area。

数学： 我们能用数学来描述这种直觉吗？

回报（return）可以用来评估策略（policy），return 可以告诉我们哪个策略好，哪个策略坏，这样才能不断地改进策略。请参阅下文。

根据策略 1（左图），从 $s_1$ 开始，折扣回报（discounted return）为

$\begin{align}return_1 & = 0+\gamma 1+\gamma^2 1+\dots,\\ & = \gamma(1+\gamma+\gamma^2+\dots),\\ & = \frac{\gamma}{1-\gamma}\end{align}$

根据策略 2（中图），从 $s_1$ 开始，折扣回报（discounted return）为

$\begin{align}return_2 & = -1+\gamma 1+\gamma^2 1+\dots,\\ & = -1+\gamma(1+\gamma+\gamma^2+\dots),\\ & = -1+\frac{\gamma}{1-\gamma}\end{align}$

根据策略 3（右图），从 $s_1$ 开始，折扣回报（discounted return）为（策略3是随机性的Policy 3 is stochastic!）

$\begin{align}return_3 & = 0.5(-1+\frac{\gamma}{1-\gamma})+0.5(\frac{\gamma}{1-\gamma})\\ & = -0.5+\frac{\gamma}{1-\gamma}\end{align}$

策略 3 这里其实是在计算期望。这里已经不是 return 的概念了，return 的概念是针对一个轨迹定义的，现在有两个轨迹，我们在做的是求平均值，即求期望。其实这里求的是状态值（state value）。

总之，从 $s_1$ 开始
$return_1 > return_3 > return_2$
上述不等式表明，第一种策略是最好的，第二种策略是最差的，这与我们的直觉完全相同。

计算回报（return）对于评估一项策略非常重要。

2. 例子2：如何计算回报（return）？

上图中四个状态（state）是 $s_1,s_2,s_3,s_4$ ，策略（policy）是绿色的箭头，奖励（reward）是 $r_1,r_2,r_3,r_4$ 。

（1）方法1：通过定义

让 $v_i$ 表示从 $s_i(i = 1,2,3,4)$ 出发得到的回报（return）。

注意，轨迹是无穷的，例如，从 $s_1$ 出发： $s_1 \rightarrow s_2 \rightarrow s_3 \rightarrow s_4 \rightarrow s_1 \rightarrow s_2\dots.$ 会一直走下去
$\begin{align}v_1 & = r_1+\gamma r_2+\gamma^2 r_3+\dots \\ v_2 & = r_2+\gamma r_3+\gamma^2 r_4+\dots \\ v_3 & = r_3+\gamma r_4+\gamma^2 r_1+\dots \\ v_4 & = r_4+\gamma r_1+\gamma^2 r_2+\dots \\ \end{align}$

（2）方法2：

$\begin{align}v_1 & = r_1+\gamma(r_2+\gamma r_3+\dots) = r_1+\gamma v_2 \\ v_2 & = r_2+\gamma(r_3+\gamma r_4+\dots) = r_2+\gamma v_3 \\ v_3 & = r_3+\gamma(r_4+\gamma r_1+\dots) = r_3+\gamma v_4 \\ v_4 & = r_4+\gamma(r_1+\gamma r_2+\dots) = r_4+\gamma v_1 \\ \end{align}$

上面这一组式子告诉我们：从不同状态出发得到的 return 依赖于从其他状态出发得到的 return，回报（return）相互依赖。

这一思想在强化学习中被称为 Bootstrapping !
现代的意思就是引申出来：我从自己出发，然后不断地迭代所得到的一些结果。

如何使用这些方程？把上面的一组式子写成矩阵向量的形式（matrix-vector form）：

可被重写成一种更简化的形式：
$\gamma Pv$

$I$ (identity matrix)减去 $\gamma$ 然后乘以P 矩阵，然后乘以 $v$ 就等于 $\gamma$ ，把 $(I − v P)(I-vP)$ 这个矩阵求逆，然后乘以 $\gamma$ ，就得到了 $v$ 。

从上面的方程可以解出从不同状态出发的价值（value） v ，这就是贝尔曼公式（针对这个特定的确定性 deterministic 问题）！

虽然简单，但它展示了核心概念：一个状态（state）的价值（value）依赖于其他状态（state）的价值（value）
矩阵向量形式更容易理解如何求解状态值（state value）。

练习：

考虑图中所示的策略（policy）。请写出回报（return）之间的关系（即写出贝尔曼方程）

答案：（从 $s_1$ 出发，以奖励 0 到状态 $s_3$ ，从状态 $s_3$ 出发得到的 return 是 $v_3$ ；从 $s_2$ 出发，以奖励 1 到状态 $s_4$ ，从状态 $s_4$ 出发得到的 return 是 $v_4$ ；…）
$\begin{align}v_1 = 0+\gamma v_3 \\ v_2 = 1+\gamma v_4 \\ v_3 = 1+\gamma v_4 \\ v_4 = 1+\gamma v_4 \\ \end{align}$
如何求解？这是一个线性方程组，很好求解。我们可以先计算 $v_4$ ，然后计算 $v_3,v_2,v_1$ 。

三. 状态值（state value）

单步：

单步（single-step）流程： b
$\xrightarrow{A_t}R_{t+1},S_{t+1}$

$t,t+1$ ：离散时间实例， $t$ 指当前的时刻， $t+1$ 指下一个时刻
$S_t：t$ 时刻的状态
$A_t$ ：在状态 $S_t$ 采取的动作
$R_{t+1}$ ：在状态 $S_t$ 采取动作 $A_t$ 之后获得的奖励（reward）（有时也写成 $R_t$ ，写成什么都没有区别，只是一个习惯，但是一般都写成 $R_{t+1}$ ）
$S_{t+1}$ ：采取动作 $A_t$ 后转换到的状态

注意， $S_t、A_t、R_{t+1}$ 都是大写的，代表随机变量（random variables），就是我们可以对它进行一系列的操作，比如求期望（expectation）。

每一步的所有跳跃（step）都由以下概率分布（probability distributions）所决定：

在 $S_t$ 要采取什么样的动作（action）由 策略 $\pi$ 来决定
在 $S_t$ 采取动作（take action） $A_t$ ，要得到什么样的奖励（Reward）由奖励概率（reward probability） 决定
在 $S_t$ 采取动作（take action） $A_t$ ，要跳到下一个什么状态（State）由状态转移概率（ state transition probability） 决定

governed：受约束的，所规管的

多步：

考虑以下多步骤轨迹（multi-step trajectory）：
$\xrightarrow{A_t}R_{t+1},S_{t+1}\xrightarrow{A_{t+1}}R_{t+2},S_{t+2}\xrightarrow{A_{t+2}}R_{t+3},\dots$
折扣回报（discounted return） $G_t$ 是所有瞬时回报（immediate reward）与折扣因子（discount rate）乘积相加：
$\gamma R_{t+2}+\gamma^2 R_{t+3}+\dots$

$\gamma \in[0,1)$ 是折扣率（discount rate）。
$G_t$ 也是一个随机变量（random variables），因为 $\dots$ 都是随机变量（random variables）。

正式定义状态值（state value）：

折扣回报（discounted return） $G_t$ 的期望值（或称为期望值 expectation 或平均值 mean）被定义为状态值函数（state-value function），或简称为状态值（state value）：

注意：

状态值（state value）它是 s 的函数， 是一种条件期望（conditional expectation），条件是状态从 s 开始。从不同的状态 s 出发，得到的轨迹不同，得到的折扣回报（discounted return） $G_t$ 也不同
状态值（state value）它是策略 $\pi$ 的函数， 对于不同的策略（policy），会得到不同的轨迹，不同的轨迹会得到不同的折扣回报（discounted return） $G_t$ ，就会得到不同的状态值（state value）
它代表一个状态的 “价值”。如果状态值（state value）越大，那么从这个状态出发的策略（policy）就更好，因为可以获得更大的累积回报（return）。

问：回报（return）与状态值（state value）之间的关系是什么？

答：

回报（return）是针对单个轨迹（trajectory）求的 return；

状态值（state value）针对多个轨迹（trajectory）得到的 return 再求平均值。

如果从一个状态出发，有可能得到多个轨迹（trajectory），这时候回报（return）与状态值（state value）显然有区别；

但假如从一个状态出发，一切都是确定性的，只能得到一条轨迹（trajectory），这时候那个状态的回报（return）与那个状态的状态值（state value）是一样的。

例子：

这三个例子分别对应三个策略 $\pi_1,\pi_2,\pi_3$ ，三个策略导致了三个轨迹（trajectory 理解为根据策略可能走出的轨迹），要计算在这三个不同策略下同一个状态 $s_1$ 的状态值（state value）

策略 1 和 2 从 $s_1$ 出发，能得到唯一的一个 trajectory，这个 trajectory 的 return 就是它们分别的 state value

策略 3 有两条轨迹，状态值（state value）是这两条轨迹分别得到的回报（return）的平均值。就是把 probability 乘到前面去，这实际上就是期望（expectation）的求法。

比较三个策略导致的状态值（state value）的大小可知，第一种策略是最好的，第二种策略是最差的，这与我们的直觉完全相同。

四. 贝尔曼公式：推导

1. 推导

状态值（state value）固然重要，但如何计算呢？答案就在贝尔曼公式（Bellman equation）中。
总之，贝尔曼公式（Bellman equation）描述了不同状态的状态值（state value）之间的关系。

考虑一个随机轨迹：
$\xrightarrow{A_t}R_{t+1},S_{t+1}\xrightarrow{A_{t+1}}R_{t+2},S_{t+2}\xrightarrow{A_{t+2}}R_{t+3},\dots$
折扣回报（discounted return） $G_t$ 可写成
$\begin{align}G_t & = R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\dots \\ & = R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\dots)\\ & = R_{t+1}+\gamma G_{t+1}\end{align}$
所以这个时刻我所得到的 return 等于我能立即得到的奖励（immediate reward） $R_{t+1}$ 加上到下一时刻从那出发能得到的 return （futrue reward）乘以 discount rate

那么，根据状态值（state value）的定义可以得出
$\begin{align}v_{\pi}(s)& = \mathbb{E}[G_t|S_t = s]\\ & = \mathbb{E}[R_{t+1}+\gamma G_{t+1}| S_t = s]\\ & = {\color{blue}\mathbb{E}[R_{t+1}|S_t = s]}+\gamma{\color{blue}\mathbb{E}[G_{t+1}|S_t = s]}\end{align}$
接下来，分别计算这两个项，求出他们的形式，就得到了贝尔曼公式

首先，计算第一项 $\mathbb{E}[R_{t+1}|S_t = s]$ ：当前时刻我在状态 s ，我得到的立即奖励（immediate reward）是 $R_{t+1}$
$\begin{align}\mathbb{E}[R_{t+1}|S_t = s]& = \sum_a \pi(a|s)\mathbb{E}[R_{t+1}|S_t = s,A_t = a]\\ & = \sum_a \pi(a|s)\sum_r p(r|s,a)r \end{align}$
理解：

这里的 $S_t,A_t,R_{t+1}$ 都是集合，所以对于任意时刻的 $t$ ， $s$ 是确定的， $A$ 可能有几种不同选择，而之前的例子是确定性奖励，所以对于 $R$ 是一个集合（变量）印象不深。最简单的就是抽奖，你每次执行同样的行为得到的奖励却不同，所以这里需要求和（或者是积分）。

在状态 s ，我有多个 action 可以去选择，take action a 的概率是 $\pi(a|s)$ ，当我 take action a 我所得到的 value 是 $\mathbb{E}[R_{t+1}|S_t = s,A_t = a]$ 。 $\mathbb{E}[R_{t+1}|S_t = s,A_t = a]$ 可以写成 $\sum\limits_r p(r|s,a)r$

意思是，从 $s$ 出发，take action $a$ ，得到的奖励（reward）是 $r$ 的概率是 $p(r|s,a)$ ，根据期望的定义，取值为 $r$ 的概率乘以 $r$ 本身就是期望。

注意： 第一项其实就是我能得到的立即奖励（immediate reward）的期望/平均

大写的 S 不确定，小写的 s 是确定的。在前面的 state value 定义时已说明，S、R 表示随机变量。
这里的大写 St，At，Rt+1都是集合，所以对于任意时刻 t，S 是确定的，A 可能有几种不同选择。而之前的例子是确定性奖励，所以对于 R 是一个集合（变量）印象不深。最简单的就是抽奖，你每次执行同样的行为得到的奖励却不同
这里 Π（a|s) 是采取动作 a 的概率，后面一项是采取这个动作之后，到下一个不同状态的概率
比如我有 0.5 概率（pai）撞到墙，但是撞到墙之后有 0.1 概率原地不动，也有 0.9 概率后退一步，这部分内容就是后面的 p
这里就是枚举了所有动作下的概率和收益的成绩加起来算了期望
就是两次离散型随机变量计算期望

其次，计算第二项 $\mathbb{E}[G_{t+1}|S_t = s]$ ：第二项是我从当前状态 $s$ 出发得到的下一个时刻的回报（return）的期望（mean）

第一行：从当前 $s$ 出发，有多个选择，可以跳到不同 $s'$ ，跳到不同 $s'$ 的概率是 $p(s'|s)$ ，跳到不同 $s'$ 所得到的值是 $\mathbb{E}[G_{t+1}|S_t = s,S_{t+1} = s']$ ，一相加就是 (expectation) $\mathbb{E}[G_{t+1}|S_t = s]$
从第一行到第二行： $\mathbb{E}[G_{t+1}|S_t = s,S_{t+1} = s']$ 意思是当前状态是 $s$ ，下一个状态是 $s'$ ，计算从下一个状态出发所得到回报（return）的期望（mean），第二行 $\mathbb{E}[G_{t+1}|S_{t+1} = s']$ 把第一行中那一项的 $S_t = s$ 去掉了，因为我已经知道了下一个状态是 $s'$ ，就不用关心我之前究竟是在什么状态了，这其实就是马尔可夫的性质，是无记忆的（memoryless Markov property）
从第二行到第三行： $\mathbb{E}[G_{t+1}| S_{t+1} = s']$ 意思是从下一个状态 s’ 出发计算我所能得到的回报（return）的平均值（mean），这个就是第三行写的一个状态值（state value） $v_\pi(s')$ ，只不过是针对 $s'$ 的状态值（state value） $v_\pi(s')$ 。——最开始的状态值（state value）的定义
从第三行到第四行：从 $s$ 到 $s'$ 的概率 $p(s'|s)$ ：从 $s$ 出发我有多种选择，可以选择不同的动作（action），选择 action a 的概率是 $\pi(a|s)$ ，选择这个 action 我跳到 $s'$ 的概率是 $p(s'|s,a)$ ，通过两者相乘相加可以得到 $p(s'|s)$ 。

注意：

第二项是 future reward 的平均（mean）
$\mathbb{E}[G_{t+1}|S_t = s,S_{t+1} = s'] = \mathbb{E}[G_{t+1}|S_{t+1} = s']$ 是由于由于无记忆马尔可夫特性（memoryless Markov property）

贝尔曼公式（Bellman equation）：此处 $\sigma$ 后面应该加一个左大括号 {，右大括号在式子的最后面 }

强调，由方程中的符号可以得出以下重点：

上述方程称为贝尔曼方程（Bellman equation），它描述了不同状态（states）的状态值函数（state-value functions）之间的关系：因为看上面式子标红的地方，上面式子等式左边是 $s$ 的状态值（state value），等式右边是 $s'$ 的状态值（state value），他们的关系可以通过这样的一个式子表达出来。
它由两个项组成：即时奖励项（immediate reward term）和未来奖励项（future reward term）。
这是一组等式：每个状态（state）都有这样的等式！！！这不是一个式子，这个式子对状态空间中的所有状态都成立（等式后面的取值范围是 $\forall s \in S$ ），所以如果有 n 个状态，就有 n 个这样的式子，通过这 n 个式子可以求解出状态值（state value）。

$v_\pi(s)$ 和 $v_\pi(s')$ 是我们要计算的状态值，计算的思想就是 Bootstrapping ! 直观上来讲，等式左边的状态值（state value） $v_\pi(s)$ 依赖于等式右边的状态值（state value） $v_\pi(s')$ ，看起来好像没法计算，其实我们有一组这样的式子，把这些式子连立就可以算出来。
公式中的 $\pi(a|s)$ 是给定的策略 policy（是一种概率 probability）。解方程称为策略评估（policy evaluation）：贝尔曼公式依赖于策略（policy），如果我们能计算出状态值（state value），其实我们在做的一件事就是评估这个策略（policy evaluation）究竟是好是坏 。
奖励概率（Reward probability） $p(r|s,a)$ 和状态转换概率（State transition probability） $p(s'|s,a)$ 代表的是动态模型（dynamic model）或称为环境模型（environment model） ：分两种情况，一种是我们知道这个模型（model），在本节和下节当中我们都会假设知道这个 model，给出来相应的算法；一种是不知道模型（model），这种情况下我们仍然可以求出 state value，这就是 model free reinforcement learning 的算法。

2. 例子

（1）例子1：

图中的策略 $\pi$ 由绿色的箭头表示

根据一般表达式（general expression）写出贝尔曼方程：
$v_\pi(s) = \sum_a \pi(a|s)\left[\sum_r p(r|s,a)r+\gamma \sum_{s'}p(s'|s,a)v_{\pi}(s')\right]$
这个例子很简单，因为策略（policy）是确定的（deterministic）。

首先，考虑 $s_1$ 的状态值（state value）：
$\pi(a = a_3|s_1) = 1 \ \ and \ \ \pi(a \ne a_3 | s_1) = 0 \\ p(s' = s_3|s_1,a_3) = 1 \ \ and p(s' \ne s_3 | s_1,a_3) = 0 \\ p(r = 0|s_1,a_3) = 1 \ \ and p(r \ne 0 | s_1,a_3) = 0$
将上面这些概率和值代入贝尔曼方程，得出：（下面这个式子和上面在二.2 那部分用激励性例子 2 介绍的方法计算出的结果一样，即与上面直观计算出的结果是一样的，虽然此时是用复杂贝尔曼公式得到的，但从直观上来讲很容易理解）
$v_\pi(s_1) = 0+\gamma v_{\pi}(s_3)$
类似地，可以得出
$v_\pi(s_1) = 0+\gamma v_{\pi}(s_3)\\ v_{\pi}(s_2) = 1+\gamma v_{\pi}(s_4)\\ v_{\pi}(s_3) = 1+\gamma v_{\pi}(s_4)\\ v_{\pi}(s_4) = 1+\gamma v_{\pi}(s_4)$
从最后一个方程到第一个方程，逐一求解上述方程，得到：
$v_\pi(s_4) = \frac{1}{1-\gamma}\\ v_{\pi}(s_3) = \frac{1}{1-\gamma}\\ v_{\pi}(s_2) = \frac{1}{1-\gamma}\\ v_{\pi}(s_1) = \frac{\gamma}{1-\gamma}\\$
如果 $\gamma = 0.9$ ，那么
$v_\pi(s_4) = \frac{1}{1-0.9} = 10 \\ v_{\pi}(s_3) = \frac{1}{1-0.9} = 10\\ v_{\pi}(s_2) = \frac{1}{1-0.9} = 10\\ v_{\pi}(s_1) = \frac{0.9}{1-0.9} = 9\\$
计算出 $s_1$ 的状态值是 9， $s_2,s_3,s_4$ 的状态值是 10。状态值（state values）代表这个状态的价值，如果一个状态的价值高，说明这个状态是值得我们往那个方向走的，之所以 $s_2,s_3,s_4$ 的价值高，是因为它们距离 target area 比较近。

计算出状态值（state values）后干什么？

耐心等待（计算行动值（action value）并改进策略（improve policy）），慢慢的就会得到最优策略。

$s_2$ 不是陷阱吗？为什么状态值那么高？

前面提到过，reward 是给动作打分，现在的 $v$ 是状态的得分，所以虽然 $s_2$ 是陷阱，但是进入陷阱的惩罚是不体现在陷阱这个状态里面的
陷阱的负价值体现在 $s_1$ 的 value 是最小的上面，因为只有 $s_1$ 有可能往陷阱走
$s_2$ 的策略是走向 $s_4$ ，这个是高价值的；如果 $s_1$ 还有一个策略是走向 $s_2$ ，那么 $s_1$ 的 value 还会进一步降低

（2）例子2

$v_\pi(s) = \sum_a \pi(a|s)\left[\sum_r p(r|s,a)r+\gamma \sum_{s'}p(s'|s,a)v_{\pi}(s')\right]$

写出每个状态的贝尔曼方程。
求解贝尔曼方程中的状态值。
与上一个示例中的策略进行比较。

在这个策略（policy）下，计算出 $s_1$ 的状态值（state value）是 8.5， $s_2,s_3,s_4$ 的状态值（state value）是 10。而在上一个策略（policy）下 $s_1$ 的状态值（state value）是 9。

所以这个策略没有刚才的策略好。

五.贝尔曼公式（ Bellman equation）：矩阵向量形式（Matrix-vector form）

为什么要考虑矩阵向量形式？因为我们需要从中求解状态值（state value）！

一个未知数依赖于另一个未知数。如何解决这些未知数？
${\color{red}v_{\pi}(s)} = \sum_a \pi(a|s)\left[\sum_r p(r|s,a)+\gamma \sum_{s'}p(s'|s,a){\color{red}v_{\pi}(s')}\right]$

元素形式（Elementwise form）： 上述元素形式的方程对每个状态 $s \in S$ 都成立，如果有 $n$ 个状态就有 $n$ 个这样的方程。这意味着有这样的 $|S|$ 方程！
矩阵向量形式（Matrix-vector form）： 如果我们把所有方程放在一起，就会得到一组线性方程，可以简洁地写成矩阵向量形式。矩阵向量形式非常优雅，也非常重要。

1. 推导出矩阵向量形式：

回顾一下：

$v_\pi(s) = \sum_a \pi(a|s)\left[\sum_r p(r|s,a)+\gamma \sum_{s'}p(s'|s,a)v_{\pi}(s')\right]$
将贝尔曼方程改写为（括号外的项往括号里面分配）
$v_\pi(s) = r_{\pi}(s)+\gamma \sum_{s'}p_{\pi}(s'|s)v_{\pi}(s')$
其中

$r_\pi(s)$ 代表从当前状态出发，我所能得到的即时奖励（immediate reward）的平均值
这个式子其实与推导贝尔曼公式的时候计算第一项和第二项的时候写的中间过程的公式是一样的，是即时奖励加未来奖励
从当前 $s$ 出发，有多个选择，可以跳到不同 $s'$ ，跳到不同 $s'$ 的概率是 $p(s'|s)$

假设状态（states）可以索引为 $s_i(i = 1,…,n)$ 。

对于状态 $s_i$ ，贝尔曼方程为：（从 $s_i$ 跳到 $s_j$ 的概率是 $p_\pi(s_j|s_i)$ ，从 $s_i$ 跳到 $s_j$ 所取的 state value 是 $v_\pi(s_j)$

$v_\pi(s_i) = r_{\pi}(s_i)+\gamma \sum_{s_j}p_{\pi}(s_j|s_i)v_{\pi}(s_j)$
将所有这些状态方程放在一起，改写成 矩阵向量形式， $v_\pi$ 是一个向量
$v_\pi = r_{\pi}+\gamma P_{\pi}v_{\pi}$
其中（ $P_\pi$ 是状态转换矩阵（state transition matrix）， $p_\pi(s_j|s_i)$ 意思是状态从 $s_i$ 跳到 $s_j$ 的概率）

代表第 $i$ 行第 $j$ 列的元素从 $s_i$ 跳到 $s_j$ 的这样一个概率

2. 例子

（1）例子1

有四个状态，即 n = 4 的时候的矩阵向量形式

考虑下图，策略（policy）用绿色的箭头表示

（2）例子2

六.贝尔曼公式（ Bellman equation）：求解状态值（state value）

1.求解

用刚才推导的贝尔曼公式的矩阵和向量的形式求解状态值（state value）

为什么要求解状态值（state value）？

给定一个策略（policy），我们会列出来它的贝尔曼公式（ Bellman equation），再进一步求解这个贝尔曼公式得到状态值（state value），求出相应的状态值这样的一个过程（state value）称为策略评估（policy evaluation）！这是 RL 中的一个基本问题。它是找到更好策略的基础。
策略评估（policy evaluation）是强化学习中的关键，因为只有能够去评价一个策略好或者不好，我们才能进一步改进它最后再找到最优的策略。

矩阵向量形式的贝尔曼方程为： $v_π$ 是一个向量
$v_\pi = r_{\pi}+\gamma P_{\pi}v_{\pi}$
下面给出两种求解贝尔曼公式的方法：

（1）闭式解为（The closed-form solution is），即状态值（state value）的解析表达式为：
$v_\pi = (I-\gamma P_{\pi})^{-1}r_{\pi}$
实际上，我们仍然需要使用数值工具来计算矩阵逆，实际中并不会使用。我们能避免矩阵逆运算吗？可以，通过迭代算法（iterative algorithms）。

（2）迭代解决（iterative solution）方案是：（ $v_k$ 和 $v_{k+1}$ 都是向量，包含了不同时刻的所有状态值）
$v_{k+1} = r_\pi+\gamma P_{\pi}v_k$
首先可以随便猜一个 $v_0$ 等于什么（比如全为0），然后带入到等式右边，得到等式左边的 $v_1$ ；
然后把 $v_1$ 再带到等式右边，得到等式左边的 $v_2$ ；
然后把 $v_2$ 再带到等式右边，得到等式左边的 $v_3$ ，如此循环计算下去，就会得到一个序列 $\dots}$ 。我们可以证明当 $k$ 趋向于 $\infty$ 的时候， $v_k$ 就收敛到了 $v_\pi$ ，这个 $v_\pi$ 就是真实的状态值（state value）
$v_k \rightarrow v_{\pi} = (I-\gamma P_{\pi})^{-1}r_{\pi},\ \ \ \ k \rightarrow \infty$
证明：

2.例子

$\gamma = 0.9$

以下是两项 “好 “的策略（绿色箭头是策略）和状态值（state value）。在第四列中，前两个状态的两项策略是不同的。

用刚才讲的解析表达式或者迭代算法都可以求出状态值（state value）。

可以看出，状态值（state value）全为正数。

靠近目标 target area 的状态值（state value）都比较大，
距离目标 target area 越远，它的状态值（state value）越小。

以下是两项 “不好”的策略（绿色箭头是策略）和状态值（state value）。状态值（state value）比好策略的状态值小。

上面两个策略很明显会撞墙或进入禁区，从直觉上讲，这是不好的策略；

而计算出的状态值（state value）有负数，通过状态值（state value）也可以判断出这是不好的策略，这与我们的直觉一致。

可以看出，我们可以通过计算状态值（state value）来评价一个策略（policy）的好坏

七.动作值（action value）

从状态值（state value）到动作值（action value）：

状态值（state value）：（agent）智能体从某一状态（state）开始所能获得的平均回报（average return）。
动作值（action value）：（agent）智能体从某一状态（state）出发并采取某项动作（taking an action）之后所能获得的平均回报（average return）。

我们为什么关心动作值（action value）？

策略指的是在一个状态我要选择什么样的 action，有一些 action 我们如何做选择呢？就要根据 action value 来做判断，action value 大的意味着我选择那个 action 会得到更多的 reward，那我就会去选择那个。
因为我们想知道哪个动作更好。这一点在下面的讲解中会更加清楚。我们将经常使用动作值。

1.动作值定义

动作值定义：我们从当前状态 s 出发，选择动作 a 之后，我所得到的回报（return）的一个平均（average）就是动作值（action value）：
$q_\pi(s,a) = \mathbb{E}[G_t|S_t = s,A_t = a]$

$q_\pi(s,a)$ 是状态-动作对 $(s,a)$ 的函数，依赖于从哪个状态出发，从哪个状态的 action 出发。
$q_\pi(s,a)$ 依赖于 $\pi$ ，不同的策略会得到不同的 action value

（不确定对）确定了action的话reward不也是确定的吗，为啥还要求期望？

确定了action，action的reward确定，但结果状态不确定，所以期望是给结果状态 $v(s ')v(s')$ 的
就比如之前老师讲的被风吹歪的例子，现态采取同个策略可能会掉到不同的次态

2.动作值与状态值的联系

根据条件期望的性质可以得出：等式右边意思是我有很多个 $a$ ，我选择一个 $a$ 的概率是 $\pi(a | s)$ ，选择 $a$ 后所得到的 average return 是 $q_\pi(s,a)$

因此

${\color{red}v_{\pi}(s)} = \sum_a \pi(a|s){\color{red}q_{\pi}(s,a)}\quad \quad \quad(2)$
等式左边是从一个状态出发的 state value 等于右边我选择不同 action 得到的 action value 的平均值，权重就是策略 $\pi$ 。

action value其实可以理解为state value的一个action下的值

回想一下，状态值（state value）由以下公式给出

比较 (2) 和 (3)，我们可以得出动作值函数（action-value function）的表达式为

(2) 和 (4) 是一枚硬币的两面：

(2) 说明了如何从动作值（action value）中获取状态值（state value）。
(4) 则说明了如何从状态值（state value）中获取动作值（action value）。

在概率论范畴下，研究对象都是随机变量，是没有常规意义的平均的。所说的平均都是概率意义平均，即期望。

3.例子

写出状态 $s_1$ 的动作值（action value）

$q_\pi(s_1,a_2) = -1+\gamma v_{\pi}(s_2)$
问题？下面这些不等于0！！
$q_\pi(s_1,a_2),q_{\pi}(s_1,a_3),q_{\pi}(s_1,a_4),q_{\pi}(s_1,a_5) = ? \ Be careful \ !!$
至于其他动作：所有的 action 都可以计算
$\begin{align}q_{\pi}(s_1,a_2)& = -1+\gamma v_{\pi}(s_2)\\ q_{\pi}(s_1,a_3)& = 0+\gamma v_{\pi}(s_3)\\ q_{\pi}(s_1,a_4)& = -1+\gamma v_{\pi}(s_1)\\ q_{\pi}(s_1,a_5)& = 0+\gamma v_{\pi}(s_1)\\ \end{align}$

强调：

动作值（action value）很重要，因为我们未来会关注在某个状态它不同的 action ，它们之间会相互比较，我们会选一个动作值（action value）最大的那个。因为我们关心的是采取哪种动作。
我们可以先求解贝尔曼公式，计算所有状态值（state value），然后再计算动作值（action value）。
我们也可以不计算状态值（state value），使用或不使用模型直接计算动作值（action value）。

八.总结

【强化学习的数学原理-赵世钰】课程笔记（一）基本概念

2024-04-02T07:50:17.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/137272667

一. 内容概述

第一部分主要有两个内容：

1. 通过案例介绍强化学习中的基本概念

2. 在马尔可夫决策过程（MDP）的框架下将概念正式描述出来

二. 通过案例介绍强化学习中的基本概念

1. 网格世界（A grid world example）

本课程中始终使用的一个示例：网格世界

（1）网格类型：可访问（Accessible）；禁止访问（forbidden）；目标单元格（target cells）；边界（boundary）

（2）机器人只能在相邻网格移动，不能斜着移动

强化学习的任务：给任意一个起始点，找到一个比较好的路径到达目标。比较好的路径就是尽量避开禁止访问的地方，不要有无意义的拐弯，不要超越边界。

2. 状态（State）

状态（state）：智能体相对于环境的状态

以网格世界为例，智能体的位置就是状态。有九个可能的位置，因此也就有九种状态： $\dots,S_9$ 。这些字母是一个索引，真正对应的状态可能是在二维平面上的位置（x,y），更复杂的问题可能还会对应速度，加速度，或其他类型的状态信息等等。

状态空间（state space）：把所有状态放在一起，所有状态的集合（set）
$S = {s i}i = 1 9 S = \{s_i\}_{i = 1}^9$

3. 动作（Action）

动作（action）：每个状态都有五种可能的行动： $\dots,a_5$

$a_1$ ：向上移动；
$a_2$ ：向右移动；
$a_3$ ：向下移动;
$a_4$ ：向左移动；
$a_5$ ：保持不变；

状态的动作空间（action space）：状态的所有可能动作的集合。
$A(s i) = {a i}i = 1 5 A(s_i) = \{a_i\}_{i = 1}^5$
动作空间和状态有依赖关系，不同状态的动作空间不同，由上面的公式可知，A 是 $s_i$ 的函数。

4. 状态转移（State transition）

在采取行动（action）时，智能体可能会从一个状态移动到另一个状态。这种过程称为状态转移。

在状态 $s_1$ 下，如果我们选择行动 $a_2$ ，那么下一个状态是什么？（向右移动一格）

$\xrightarrow{a_2}s_2$

在状态 $s_1$ 下，如果我们选择行动 $a_1$ ，那么下一个状态是什么？（向上移动一格，会撞到边界，所以状态还是 $s_1$ ）

$\xrightarrow{a_1}s_1$

状态转换描述了智能体与环境的交互行为。 在游戏当中可以任意定义某个状态采取一个行动后状态的转换，但是在实际中不可以。

注意禁止访问的区域（forbidden area）：

例如：在状态 $s_5$ ，如果我们选择操作 $a_2$ 、那么下一个状态是什么？

情况 1：禁区可以进入，但会受到惩罚。那么

$\xrightarrow{a_2}s_6$

情况 2：禁区无法进入（如被围墙包围）

$\xrightarrow{a_2}s_5$

这边考虑的是第一种情况，这种情况更为普遍，也更具挑战性。因为如果把一些状态给排除掉的话，状态空间就小了，实际上做搜索的时候会更加容易。虽然进去forbidden area会的得到惩罚，但是也许进去之后，进到target area反而是最近的路径，所以有可能agent会冒险进到这个forbidden area。

表格表示法（Tabular representation）： 使用表格来描述状态转换，表格的每一行对应状态（state），每一列对应行动（action）。

表格表示法只能表示确定性（deterministic）的情况。

State transition probability： 使用概率描述状态转换

直觉：在状态 $s_1$ 下，如果我们选择行动（take action） $a_2$ ，下一个状态就是 $s_2$ 。
数学：使用条件概率表示

$\begin{align}p(s_2 |s_1,a_2)& = 1 \\ p(s_i |s_1,a_2)& = 0 \ \ \ \ \forall i \ne 2 \end{align}$

Docker 的资源控制

2024-03-07T11:43:09.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/136543999

Docker 的资源控制

Docker 容器技术在开发和部署应用程序方面带来了极大的便利。然而，随着容器数量的增加，合理地管理和控制资源使用变得至关重要。详细介绍如何使用 Docker 对容器的资源进行控制，包括内存、CPU、磁盘 I/O 和网络带宽。

为什么需要资源控制？

在没有资源限制的情况下，一个或多个运行在相同宿主机上的容器可能会消耗过多的资源，导致整个系统的性能下降，甚至影响到其他容器的正常运行。通过对容器资源的限制，我们可以：

保证宿主机上每个容器都有足够的资源来执行任务。
防止某个容器因异常行为占用过多资源，影响其他容器。
根据应用程序的实际需求，分配适当的资源，提高系统的整体效率。

控制内存使用

使用 --memory（或 -m）选项，可以限制容器的内存使用量。例如：

docker run -m 256m my_image

上面的命令将容器的内存限制为 256 MB。如果容器尝试使用更多内存，它可能会遇到 Out Of Memory (OOM) 的错误，并且可能被系统终止。

--memory-swap 是一个相关选项，它设置内存加上交换分区的总量。如果设置为 -1，容器将不会有交换分区的限制。

限制 CPU 使用

通过 --cpus 选项，可以指定容器能够使用的 CPU 核心的个数。例如：

docker run --cpus 1.5 my_image

这个命令限制容器最多可以使用 1.5 个 CPU 核心。如果你的系统有多个 CPU 核心，这个选项可以帮助你平衡负载，防止容器占用过多的 CPU 时间。

--cpu-shares 选项允许你设置 CPU 时间的相对权重。默认情况下，每个容器的权重都是 1024。增加或减少这个值将影响容器获得 CPU 时间的优先级

Linux（Centos7）安装Docker 教程

2024-03-07T05:14:57.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/136530917

要安装Docker Engine，您需要CentOS 7或8的维护版本。不支持或未测试存档版本。

1，卸载旧版本

sudo yum remove docker \                  docker-client \                  docker-client-latest \                  docker-common \                  docker-latest \                  docker-latest-logrotate \                  docker-logrotate \                  docker-engine

yum报告没有安装这些软件包就可以了。

2，安装docker软件包

sudo yum install -y yum-utils

3,设置镜像仓库地址

# 默认是国外的sudo yum-config-manager \    --add-repo \    https://download.docker.com/linux/centos/docker-ce.repo    # 换成阿里云镜像地址sudo yum-config-manager \    --add-repo \    http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo

4,安装最新版Docker Engine容器

安装前建议先将将服务器上的软件包信息现在本地缓存,以提高安装软件的速度

sudo yum makecache fast

# docker-ce社区版(docker-ee企业版)sudo yum install docker-ce docker-ce-cli containerd.io

安装完成后，Docker只安装但并未启动

5，启动Docker

sudo systemctl start docker

然后可用docker version命令测试Docker是否安装成功，并查看Docker的版本信息

Windows下使用C++调用海康威视SDK获取实时视频流进行检测

2024-02-28T07:54:45.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/136324050

准备海康威视的SDK

官网下载

海康威视开放平台

根据自己的开发平台选择SDK下载。本次以SDK_Win32为例。

下载后解压

里面有开发文档和SDK的动态库文件，有各种开发语言的Demo案列。（可以参考一下他的接口调用）

Vs 2022创建项目

创建32位的环境

将相关文件复制到工程目录下

将库文件文件夹所有文件复制到项目工程下的dll文件夹下

将头文件文件夹所有文件复制到项目工程下的include文件夹下

因为要实现实时视频流的解析。所以还需要一个头文件。

在CH-HCNetSDKV6.1.9.48_build20230410_win32\Demo示例\2- MFC分功能示例\2- 实时流回调解码获取YUV
目录下

将库文件文件夹所有lib文件复制到项目工程下的lib文件夹下

工程配置海康威视SDK

添加包含目录以及库目录

配置包含目录

配置库目录

将dll文件添加到环境中

文字内容如下：path=dll;dll\HCNetSDKCom;%path%

在附加依赖项添加如下内容

HCCore.lib
GdiPlus.lib
PlayCtrl.lib
HCNetSDK.lib

工程配置OpenCV

将OpenCV的文件放在工程目录下

配置工程

配置包含目录

配置库目录

测试

测试代码

#include #include #include "Windows.h"#include "HCNetSDK.h"#include using namespace std;typedef HWND(WINAPI* PROCGETCONSOLEWINDOW)();PROCGETCONSOLEWINDOW GetConsoleWindowAPI;void CALLBACK g_ExceptionCallBack(DWORD dwType, LONG lUserID, LONG lHandle, void* pUser){    char tempbuf[256] = { 0 };    switch (dwType)    {    case EXCEPTION_RECONNECT:    //预览时重连        printf("----------reconnect--------%d\n", time(NULL));        break;    default:        break;    }}void main() {    //---------------------------------------    // 初始化    NET_DVR_Init();    //设置连接时间与重连时间    NET_DVR_SetConnectTime(2000, 1);    NET_DVR_SetReconnect(10000, true);    //---------------------------------------    //设置异常消息回调函数    NET_DVR_SetExceptionCallBack_V30(0, NULL, g_ExceptionCallBack, NULL);    //---------------------------------------    // 获取控制台窗口句柄    HMODULE hKernel32 = GetModuleHandle(L"kernel32");    GetConsoleWindowAPI = (PROCGETCONSOLEWINDOW)GetProcAddress(hKernel32, "GetConsoleWindow");    //---------------------------------------    // 注册设备    LONG lUserID;    //登录参数，包括设备地址、登录用户、密码等    NET_DVR_USER_LOGIN_INFO struLoginInfo = { 0 };    struLoginInfo.bUseAsynLogin = 0; //同步登录方式    strcpy_s(struLoginInfo.sDeviceAddress, "192.168.1.64"); //设备IP地址    struLoginInfo.wPort = 8000; //设备服务端口    strcpy_s(struLoginInfo.sUserName, "admin"); //设备登录用户名    strcpy_s(struLoginInfo.sPassword, "thy123456"); //设备登录密码    //设备信息, 输出参数    NET_DVR_DEVICEINFO_V40 struDeviceInfoV40 = { 0 };    lUserID = NET_DVR_Login_V40(&struLoginInfo, &struDeviceInfoV40);    if (lUserID < 0)    {        printf("Login failed, error code: %d\n", NET_DVR_GetLastError());        NET_DVR_Cleanup();        return;    }    //---------------------------------------    //启动预览并设置回调数据流    LONG lRealPlayHandle;    HWND hWnd = GetConsoleWindowAPI();     //获取窗口句柄    NET_DVR_PREVIEWINFO struPlayInfo = { 0 };    struPlayInfo.hPlayWnd = hWnd;         //需要SDK解码时句柄设为有效值，仅取流不解码时可设为空    struPlayInfo.lChannel = 1;       //预览通道号    struPlayInfo.dwStreamType = 0;       //0-主码流，1-子码流，2-码流3，3-码流4，以此类推    struPlayInfo.dwLinkMode = 0;       //0- TCP方式，1- UDP方式，2- 多播方式，3- RTP方式，4-RTP/RTSP，5-RSTP/HTTP    struPlayInfo.bBlocked = 1;       //0- 非阻塞取流，1- 阻塞取流    lRealPlayHandle = NET_DVR_RealPlay_V40(lUserID, &struPlayInfo, NULL, NULL);    if (lRealPlayHandle < 0)    {        printf("NET_DVR_RealPlay_V40 error\n");        NET_DVR_Logout(lUserID);        NET_DVR_Cleanup();        return;    }    Sleep(10000);    //---------------------------------------    //关闭预览    NET_DVR_StopRealPlay(lRealPlayHandle);    //注销用户    NET_DVR_Logout(lUserID);    //释放SDK资源    NET_DVR_Cleanup();    return;}

IP、账号和密码注意改成自己的！！！

联邦学习框架：FedAdapt: Adaptive Offloading for IoT Devices in Federated Learning 框架的部署实现

2024-01-20T11:55:10.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/135693760

FedAdapt是一个全面的物联网边缘环境的框架，克服了加速联合学习资源有限的设备上的挑战，减少散兵游勇所产生的物联网设备的计算异质性和适应不同的设备和边缘服务器之间的网络带宽的影响。

虚拟机的安装

简化版（三台）

三台centos7虚拟机，一台跑服务端，其余两台跑客户端。
安装教程：VMware 安装 CentOS7
配置静态IP：CentOS7 配置静态IP

环境配置

安装Anaconda

CentOS 7上安装Anaconda 详细教程

创建环境

conda create -n pytorch python=3.8.5

上面的命令将创建一个名为myenv的新环境，其中安装了Python 3.8.5。

安装pytorch

pytorch官网

选CPU版本的吧
复制下载命令。执行。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

查看是否安裝成功

pip list

关闭防火墙或开放端口

linux（centos7）常用命令开启关闭防火墙

开放端口

firewall-cmd --zone=public --permanent --add-port=51000/tcp

配置立即生效

firewall-cmd --reload

代码

代码下载

Github地址：https://github.com/qub-blesson/FedAdapt

数据集下载

放在根目录下的 dataset/CIFAR10。他这个README这个路径写的有问题。因为在代码层面。

是在 dataset/CIFAR10，不过你可以修改数据集的路径。

代码修改

在根目录的config文件中，这些内容需要修改

SERVER_ADDR 是运行服务器端的 IP
K 设备数量，一共三台虚拟机，一台客户端+两台客户端。K表示的是客户端的数量
HOST2IP 是其余两台虚拟机运行客户端的hostname:IP 的键值对
CLIENTS_CONFIG 是其余两台虚拟机运行客户端的IP:序号 的键值对，序号从0开始
CLIENTS_LIST 是其余两台虚拟机运行客户端的IP
split_layer 初始化分层数，由于K=2，两个就够了

上传到虚拟机

激活安装好pytorch 的环境，选择代码上传的位置。

整个文件夹全部上传

虚拟机测试

修改虚拟机的主机名

CentOS7 修改主机名

运行

进入FL_training目录内

在服务器端运行

python FedAdapt_serverrun.py --offload True #FedAdapt trainingpython FedAdapt_serverrun.py --offload False #Classic FL training

先测试False

在客户端的两台机子运行

python FedAdapt_clientrun.py --offload True #FedAdapt trainingpython FedAdapt_clientrun.py --offload False #Classic FL training

node1

node2

服务器端

持续训练

可能遇到的问题

ModuleNotFoundError: No module named ‘tqdm’

原因

这是由于环境中缺少了tqdm进度条的安装包，需要使用conda或者pip命令进行安装。

解决方案

安装命令如下：

pip install tqdm
conda install tqdm

不用指定版本，直接默认使用最新的即可。

Dataset not found or corrupted

出现这问题

修改代码

数据集开始下载

linux（centos7）常用命令开启关闭防火墙

2024-01-20T11:31:44.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/135720386

什么是防火墙

在 CentOS 7 中，默认的防火墙服务是 firewalld，它取代了之前版本中的 iptables。firewalld 使用了名为“firewall-cmd”的命令行工具来管理防火墙规则。

firewalld 的关键概念包括：

区域 (Zones): 用于定义不同信任级别的网络连接。你可以为不同的网络接口或来源 IP 分配不同的区域，每个区域都有自己的规则集。
服务 (Services): 预定义的规则集，用于允许流量对应于常见的服务和应用程序，如 HTTP、HTTPS、SSH 等。
端口 (Ports): 可以开放或关闭特定的 TCP 或 UDP 端口来允许或阻止流量。
临时和永久配置 (Runtime and Permanent Configuration): firewalld 允许你进行临时（运行时）或永久更改。临时更改在服务或系统重启后不生效，而永久更改需要重新加载防火墙配置或重启服务。

参数含义

-zone  #作用域-add-port=80/tcp  # 添加端口，格式为：端口/通讯协议-permanent # 永久生效，没有此参数重启后失效

开启/关闭防火墙

# 开启防火墙sudo systemctl start firewalld# 关闭防火墙sudo systemctl stop firewalld# 设置防火墙开机启动sudo systemctl enable firewalld# 设置防火墙开机不启动sudo systemctl disable firewalld# 重启防火墙服务sudo systemctl restart firewalld

查看防火墙状态

sudo systemctl status firewalld

端口管理

# 添加一个永久的开放端口规则sudo firewall-cmd --zone=public --permanent --add-port=XXXX/tcp# 移除一个永久的开放端口规则sudo firewall-cmd --zone=public --permanent --remove-port=XXXX/tcp# 立即开放一个端口（直到下一次重新加载）sudo firewall-cmd --add-port=XXXX/tcp# 立即关闭一个端口（直到下一次重新加载）sudo firewall-cmd --remove-port=XXXX/tcp

将 XXXX 替换为您希望开放或关闭的端口号。对于 UDP 端口，将 tcp 替换为 udp。

重新加载防火墙规则

在更改了防火墙规则之后，您需要重新加载 firewalld 来应用这些更改：

sudo firewall-cmd --reload

这将应用所有永久规则，并保持当前活动的会话。

服务管理

与端口不同，服务是预先定义的端口和协议组合。您可以管理服务而不是单独的端口：

# 开放一个服务sudo firewall-cmd --permanent --add-service=http# 关闭一个服务sudo firewall-cmd --permanent --remove-service=http# 重新加载防火墙来应用更改sudo firewall-cmd --reload

查看开放的端口和服务

要查看当前开放的端口和服务，可以使用以下命令：

# 查看当前活动区域的开放端口sudo firewall-cmd --list-ports# 查看当前活动区域的开放服务sudo firewall-cmd --list-services# 查看所有永久规则（需要重新加载后生效）sudo firewall-cmd --list-all --permanent

CentOS7 修改主机名

2024-01-20T06:23:53.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/135715037

主机名分类

在CentOS7和其他使用systemd的现代Linux发行版中，有三种不同类型的主机名：

静态主机名 (Static hostname)

这是系统的永久主机名，通常被存储在 /etc/hostname 文件中。
这个主机名在系统引导时设置，并可以通过 hostnamectl 命令或直接编辑 /etc/hostname 文件来更改。
静态主机名是系统在网络上没有可用的网络服务时的默认主机名。

瞬态主机名 (Transient hostname)

瞬态主机名通常由网络配置接收，例如，通过 DHCP 分配。
如果 DHCP 服务器配置了主机名，它将作为瞬态主机名被设置。
瞬态主机名优先于静态主机名，但是当没有瞬态主机名被设置时，静态主机名就会被使用。

漂亮主机名 (Pretty hostname)

漂亮主机名是一个自由形式的字符串，可以包含空格和特殊字符。
这个主机名主要用于显示目的，并不直接用于网络功能。
您可以使用 hostnamectl 命令设置漂亮主机名。

查看主机名

CentOS 7 使用 systemd，它引入了 hostnamectl 命令，允许更改和查看当前的主机名。

要查看当前主机名，运行：

//查看一下当前的主机名的情况，查看全部三种主机名hostnamectl// 或者，查看全部的三种主机名hostnamectl status

修改主机名

在 CentOS 7 中修改主机名的过程相对简单

使用 `hostnamectl` 命令

临时有效

hostname 主机名//只能临时修改的主机名，当重启机器后，主机名称又变回来了。

hostname node1

永久生效

永久性的修改主机名称，重启后能保持修改后的。

sudo hostnamectl set-hostname your-new-hostname

将 your-new-hostname 替换为您想要的新主机名。

重启系统或注销当前会话以确保更改完全生效。

编辑配置文件

另一种方法是直接编辑包含主机名的配置文件。

使用文本编辑器编辑 /etc/hostname 文件，该文件仅包含系统的主机名。例如，使用 vi 编辑器：
```
sudo vi /etc/hostname
```
删除当前主机名，并替换为您想要的新主机名，然后保存并退出编辑器。
同样，您可能还需要编辑 /etc/hosts 文件，这样本地解析可以对应到新的主机名：
```
sudo vi /etc/hosts
```
在这个文件中，找到引用旧主机名的行（通常与 127.0.0.1 或 ::1 相关联），并将旧主机名替换为新主机名。
保存并关闭文件。
重启系统或网络服务以确保更改生效：
```
sudo systemctl restart network
```
或者仅仅重启系统：
```
sudo reboot
```

在修改主机名后，您可以再次运行 hostnamectl status 或简单地执行 hostname 命令，以确认主机名已经更改。

CentOS7 配置静态IP

2024-01-19T11:04:40.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/135704351

在解决了刚安装不能联网后

解决centos 7刚安装不能联网

配置静态IP

在 CentOS 7 中配置静态 IP 地址通常涉及修改网络配置文件。

1.查看配置好网卡后，DHCP动态分配的IP地址

2. 查看网关

网关地址在配置IP有用。

3. 更改IP地址文件

vi /etc/sysconfig/network-scripts/ifcfg-ens33

在文件中，找到或添加以下行，并用你自己的网络设置替换相应的值：

BOOTPROTO=staticONBOOT=yesIPADDR=192.168.160.133NETMASK=255.255.255.0GATEWAY=192.168.160.2DNS1=8.8.8.8DNS2=8.8.4.4

BOOTPROTO 设置为 static 表明这是一个静态 IP 配置。
ONBOOT 设置为 yes 以确保网络接口随系统启动而激活。
IPADDR 是你要分配给网络接口的静态 IP 地址。
NETMASK 是子网掩码。
GATEWAY 是默认网关。
DNS1 和 DNS2 是你的 DNS 服务器地址，这里使用了 Google 的公共 DNS 服务器地址作为示例。

4. 重启网络服务

保存并关闭文件后，重新启动网络服务以应用更改：

systemctl restart network

5. 检查配置

使用以下命令来检查新的 IP 配置是否生效：

ip addr

6. 更新路由（如果需要）

如果你更改了网关，你可能需要更新系统路由。使用以下命令来查看当前路由：

ip route

如果需要修改路由，你可以使用 ip route add 或 ip route change 命令。

确保你用的静态 IP 地址没有被网络中的其他设备使用，并且是你的本地网络子网内的有效地址。在对网络配置进行任何更改之前，建议备份原有的配置文件。如果你正在远程访问这台 CentOS 7 机器进行配置，错误的网络设置可能会导致你丢失对机器的访问。在这种情况下，确保有替代的访问方法，例如通过控制台或物理访问来修复配置。

VMware 安装 CentOS7

2024-01-19T04:40:45.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/135694722

镜像下载

镜像下载地址：https://mirrors.ustc.edu.cn/centos/7.9.2009/isos/x86_64/

VMware创建

创建新的虚拟机

直接自定义了

直接下一步

选择镜像所在位置

更改虚拟机的名称和存储位置（尽量不要使用默认位置）

设置虚拟机的配置（根据自己的情况而定）

设置虚拟机的内存（根据自己情况而定）

设置网络类型（使用NAT，默认即可）

I/O控制器类型（默认）

虚拟磁盘类型（默认）

选择磁盘（默认）

指定磁盘容量（根据自己的需求）

选择存储位置

点击完成，进行安装

镜像安装

进入安装页面，确认安装。使用English即可。

进行磁盘设置

直接Done

开始安装

设置密码

直接Done

Reboot：重启即可安装成功

用户名如果没有配置就是root，密码就是开始自己配置的。

刚安装不能联网

解决centos 7刚安装不能联网

Visual Studio 2022 + OpenCV 4.5.2 安装与配置教程

2023-11-06T08:09:24.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/134247646

OpenCV的下载与配置

参考这个OpenCV的下载与环境变量的配置：
Windows10+CLion+OpenCV4.5.2开发环境搭建

Visual Studio 2022的配置

新建工程

创建新项目

选择空项目，并点击下一步

填写好项目名称，选择好项目所在位置，点击创建。项目创建完成。

新建文件

在解决方案资源管理器下，在源文件上右键单击—->添加—–>新建项。

选c++文件，命名，点击添加，添加之后c++文件就在源文件目录下了。

新建项目属性表

因为第一次配置OpenCV，所以要添加一个属性表，添加完其他项目如果需要OpenCV，就可以直接添加现有属性表，一键完成配置。

打开属性管理器：视图 ->其他窗口 ->属性管理器。

当工程选择的是debug时，这里选择debug；
当工程选择的是release时，这里就编辑release的属性。

以64位Debug为例，右击Debug | x64，添加新项目属性表。

给属性表命名，然后选择存储位置，最好是公共位置，其他项目如果需要直接加载即可。

环境配置

在属性管理器中，在 Debug | x64 上，右键单击选择属性，进行属性的配置。

在通用属性中，点击VC++目录，点击包含目录，然后将OpenCV的两个包含目录添加进去：

E:\studyTools\OpenCV\opencv\build\include
E:\studyTools\OpenCV\opencv\build\include\opencv2

添加完后，继续点击库目录，将OpenCV的库目录添加进去：

E:\studyTools\OpenCV\opencv\build\x64\vc15\lib

添加完后，点击连接器，点击输入，点击附加依赖项，添加lib文件，lib文件可以在E:\studyTools\OpenCV\opencv\build\x64\vc15\lib中查看，数字后面带d的表示debug，选这个就行了（添加依赖项的时候可不用路径，只输入文件名，如：opencv_world411d.lib）。

测试

先写一个输出

#include using namespace std;int main() {    cout << "Hello World!!!" << endl;    return 0;}

将OpenCV的动态链接库添加到项目的 x64 | Debug下

在OpenCV的 E:\studyTools\OpenCV\opencv\build\x64\vc15\bin目录下

将其复制到项目的 x64 | Debug下，你是什么环境，就是那个环境的目录下。

测试配置效果

编写测试代码，使用OpenCV读取图片并进行展示。

#include using namespace cv;int main() {    Mat img = imread("C:\\Users\\pc\\Desktop\\zcy.jpg");    imshow("img", img);    waitKey(0);    destroyAllWindows();    return 0;}

点击运行。

Other

Visual Studio的其他版本还有OpenCV的其他版本也是类似的。

Windows10+CLion+OpenCV4.5.2开发环境搭建

2023-11-04T07:49:18.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/134218833

OpenCV准备

下载

官网：OpenCV

往下滑，找到自己需要下载的版本。我下载的是4.5.2。

解压

选择好解压的位置。进行解压。

环境变量配置

复制刚才解压缩的文件路径。

添加到path的变量中。

clion配置

新建工程

选择编译工具

选择使用Visual Studio的编译工具。这样就跟在Visual Studio里面配置是差不多的。

编写CMakeLists.txt

将OpenCV的包含目录、库目录还有链接静态库进行填充。实际路径根据自己的情况。

# cmake 最低版本要求

基于YOLOv5-7.0的PCB板缺陷检测

2023-10-19T01:53:14.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/133899280

参考引用

你的陈某某-基于YOLOv5的PCB板缺陷检测

一、数据集介绍

印刷电路板（PCB）瑕疵数据集。它是一个公共合成PCB数据集，包含1386张图像，具有6种缺陷（漏孔、鼠咬、开路、短路、杂散、杂铜），用于图像检测、分类和配准任务。

下载地址：数据集

数据样本示例：

二、环境配置

1、Gitub官网下载yolov5源码：官方地址

2、Anaconda 安装配置（省略）

3、创建新的环境（python=3.8就行，因为使用的是7.0的版本，3.6有点低。）

conda create -n pytorch python=3.8.5

4、安装pytorch：pytorch官网

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

5、yolov5的依赖下载

根据下载的 yolov5中的requirements.txt进行安装（缺啥补啥）【注意：具体安装以yolov5的readme.md为主！】

pip install -r requirements.txt

三、构建训练数据集

1、先构建数据集文件夹

下载好的PCB_DATASET解压后。是下面这种格式。

官网下载的PCB数据按照缺陷类划分文件夹的

将每个文件夹内的东西都复制出来到这个文件中。

然后删掉分类的文件夹。

images文件夹内的内容也是一样的。

├── PCB_DATASET│   ├── Annotations  进行 detection 任务时的标签文件，xml 形式，文件名与图片名一一对应│   ├── images  存放 .jpg 格式的图片文件│   ├── ImageSets  存放的是分类和检测的数据集分割文件，包含 train.txt,val.txt ,trainval.txt,test.txt│   ├── labels  存放label标注信息的txt文件，与图片一一对应├── ImageSets(train，val，test建议按照8：1：1比例划分)│   ├── train.txt  写着用于训练的图片名称│   ├── val.txt  写着用于验证的图片名称│   ├── trainval.txt  train与val的合集│   ├── test.txt  写着用于测试的图片名称

2、训练数据生成，分为两个代码（训练集划分代码与用于yolo训练的txt格式代码）

（1）训练集划分代码

在PCB_DATASET文件夹下新建ImageSets文件夹。

用途：主要是将数据集分类成训练数据集和测试数据集，默认train，val，test按照比例进行随机分类，运行后ImagesSets文件夹中会出现四个文件，主要是生成的训练数据集和测试数据集的图片名称。

import osimport randomtrainval_percent = 0.9train_percent = 0.9xmlfilepath = 'D:\\pcb\\PCB_DATASET\\Annotations'txtsavepath = 'D:\\pcb\\PCB_DATASET\\ImageSets'total_xml = os.listdir(xmlfilepath)num = len(total_xml)list = range(num)tv = int(num * trainval_percent)tr = int(tv * train_percent)trainval = random.sample(list, tv)train = random.sample(trainval, tr)ftrainval = open(txtsavepath+'\\trainval.txt', 'w')ftest = open(txtsavepath+'\\test.txt', 'w')ftrain = open(txtsavepath+'\\train.txt', 'w')

计算机视觉与深度学习-Transformer-【北邮鲁鹏】

2023-09-30T09:18:53.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/133277528

引入

相对于传统的 LSTM，Transformer 模型在处理长序列时具有更高的训练效率。这是由于Transformer模型的并行计算性质以及自注意力机制的引入。

传统的循环神经网络（如LSTM）在处理序列数据时需要按照时间顺序逐步计算和更新隐藏状态，导致训练速度较慢。而Transformer模型通过引入自注意力机制，能够同时对整个输入序列进行并行计算，从而加速了训练过程。在自注意力机制中，每个位置的编码可以直接关注到其他位置的编码，而不需要像LSTM一样逐步传递信息。

基本组成

编码器

编码器（Encoder）：编码器是Transformer模型的输入部分，负责将输入序列转换为一系列高维表示。

编码器由多个相同的编码器层（Encoder Layer）堆叠而成，堆叠多个相同的编码器层可以逐渐提取输入序列的高级表示，捕捉输入序列中的语义和上下文信息。

每个编码器层通常包含两个子层

多头自注意力机制（Multi-Head Self-Attention）

是Transformer模型中的一种变体自注意力机制，用于增强模型对输入序列的建模能力。
在传统的自注意力机制中，通过计算每个位置与其他位置之间的相似度来获取位置之间的关联性，并生成加权表示。而多头自注意力则引入了多个注意力头（Attention Head），每个头都会学习不同的相似度权重，从而能够更全面地捕捉输入序列的信息。
多头自注意力的核心思想是将输入序列先经过多个线性变换，然后分成多个注意力头。每个注意力头都会进行独立的自注意力计算，生成自己的查询、键和值，并计算相应的注意力权重。

多头自注意力的计算过程

1、输入序列的线性变换：

将输入序列经过三个不同的线性变换，分别得到查询（Queries）、键（Keys）和值（Values）【就是输入特征进行变换以后的下一轮要用到的真正的特征。】的表示。这些线性变换通常是具有不同权重的独立线性层。

$X_1$ 与 $W^Q$ 相乘得 $q_1$ ， $X_2$ 与 $W^Q$ 相乘得 $q_2$
$X_1$ 与 $W^K$ 相乘得 $k_1$ ， $X_2$ 与 $W^K$ 相乘得 $k_2$
$X_1$ 与 $W^V$ 相乘得 $v_1$ ， $X_2$ 与 $W^V$ 相乘得 $v_2$

2、多头注意力计算：

对于每个注意力头，分别计算查询和键之间的相似度。这可以通过对查询和键的内积进行计算得到。
为了控制相似度的尺度，通常会对相似度进行缩放，例如将相似度除以查询或键的维度的平方根。
将相似度得分进行softmax操作，以获得注意力权重。这样可以确保注意力权重的和为1，用于对值进行加权求和。
注意力权重乘以对应的值，得到每个位置的加权值。

流程图的形式

3、多头注意力的合并：

对输入序列进行多组线性变换，得到多组查询（Q）、键（K）和值（V）的表示。每组Wk、Wq和Wv都是独立的权重矩阵。

在真实做的时候，使用了八组 $W^Q,W^K,W^V$ 。得到八组Z。八组结果，分别为 $Z_0,Z_1…Z_7$ 。

然后将这八组结果contact起来。然后再学一组线性变换 $W^0$

总结流程：

将多个注意力头的输出表示进行拼接或线性变换，以得到多头注意力模块的最终输出。

头数与维度关系

前馈神经网络（Feed-Forward Neural Network）

编码器中的ADD&NORM

加法操作（Addition）

在编码器中，加法操作通常是通过将多头注意力模块的输出【 $z$ 】与残差连接（Residual Connection）【 $x$ 】进行相加实现的。
在多头注意力模块的输出和残差连接之间进行元素级别的相加操作。
加法操作的目的是将多头注意力模块的输出与原始输入进行融合，以保留输入的原始信息。

归一化操作（Normalization）

在加法操作之后，对结果进行归一化操作，通常使用层归一化（Layer Normalization）或批归一化（Batch Normalization）来实现。
归一化操作的目的是对加法操作后的结果进行规范化，以提高模型的稳定性和泛化能力。
归一化操作通常包括对结果进行平移和缩放，以使其具有适当的平均值和方差。

批归一化（Batch Normalization）和层归一化（Layer Normalization）

是两种常见的归一化技术，用于在神经网络中提升训练的效果和收敛速度。它们的主要区别在于归一化的维度和应用的位置。

批归一化（Batch Normalization）：

批归一化是在每个批次（batch）的数据上进行归一化操作。
它的计算是基于每个特征在整个批次中的均值和方差进行的。
在训练过程中，批归一化可以减少内部协变量偏移（Internal Covariate Shift），有助于加速收敛并提高模型的泛化能力。
在卷积神经网络中，批归一化通常应用在卷积操作后、激活函数之前。

层归一化（Layer Normalization）：

层归一化是在每个样本的特征维度上进行归一化操作。
它的计算是基于每个样本在同一层内的特征维度上的均值和方差进行的。
与批归一化相比，层归一化更适用于循环神经网络（RNN）等没有明确批次维度的场景。
层归一化可以减少样本间的依赖关系，有助于提高模型的鲁棒性和泛化能力。
在循环神经网络中，层归一化通常应用在循环层的计算之后。

解码器

解码器（Decoder）：解码器是Transformer模型的输出部分，负责根据编码器的表示生成输出序列。

解码器也是由多个相同的解码器层（Decoder Layer）堆叠而成。通过堆叠多个相同的解码器层，解码器可以逐步生成目标序列，并在每个解码器层中融合源语言序列的上下文信息和自身的上下文信息。

每个解码器层通常包含三个子层：

遮蔽多头注意力（Masked Multi-Head Attention）：

遮蔽多头注意力是解码器中的第一个组件。
它类似于编码器中的自注意力层，但在解码器中应用了遮蔽操作。
遮蔽多头注意力允许解码器在生成每个目标位置的预测时，只关注之前生成的位置，遮蔽掉后续位置的信息。
它帮助解码器在生成目标序列时保持自回归的性质，确保生成的每个位置只依赖于之前已生成的部分。这样可以编码模型在生成当前位置时访问未来位置的信息。

遮蔽多头注意力的操作步骤：

1、输入：

解码器的输入是来自上一层解码器的输出。
输入包括查询（Query）向量、键（Key）向量和值（Value）向量。

2、掩码（Masking）：

在遮蔽多头注意力中，需要对注意力权重进行掩码操作。
掩码矩阵的形状与注意力权重矩阵相同，其中需要遮蔽的位置被设置为一个很小的值或负无穷，以使得在softmax操作中相应位置的注意力权重趋近于零。
掩码矩阵通常是一个上三角矩阵，确保当前位置只能依赖于之前已生成的部分。

3、注意力计算：

对于遮蔽多头注意力，与常规的多头注意力计算类似，但是在计算注意力权重时，需要将掩码矩阵与注意力得分相乘，以实现遮蔽效果。
注意力得分是通过查询向量和键向量之间的点积计算得到的。
掩码矩阵的作用是将掩码位置对应的注意力得分置为负无穷，使得在softmax操作中对应的注意力权重趋近于零。
最后，将掩码后的注意力权重与值向量相乘，得到加权和作为遮蔽多头注意力的输出。

举例

当将中文词组”计算机视觉”翻译成英文”computer vision”时，遮蔽多头注意力的作用就像是给解码器戴了一副眼罩。它确保解码器在翻译每个词的时候，只能看到之前已经翻译的词，而不能看到后面还没翻译的词。

在生成翻译结果的过程中，遮蔽多头注意力起到的作用如下：

开始翻译时，解码器只知道第一个位置是一个特殊的开始标记。通过遮蔽多头注意力，它只能看到开始标记，而不知道后面还有什么内容。
然后，解码器会生成第一个翻译结果的词，比如英文的”computer”。在生成这个词时，遮蔽多头注意力确保解码器只能看到开始标记，而不知道”视觉”这个词的存在。
接着，解码器生成第二个翻译结果的词，比如英文的”vision”。在生成这个词时，遮蔽多头注意力仍然起作用，确保解码器只能看到开始标记和前面已生成的”computer”，而不知道后面还有什么内容。

通过遮蔽多头注意力，解码器可以逐步生成正确的翻译结果，每一步只依赖于之前已经生成的部分。这样可以确保翻译结果的准确性和连贯性，避免未来信息对当前生成的影响。在这个例子中，遮蔽多头注意力确保了生成英文单词”computer”时不会受到中文词组”视觉”的影响，从而得到正确的翻译结果”computer vision”。

多头注意力（Multi-Head Attention）：

多头注意力是解码器中的第二个组件。
它类似于编码器中的编码器-解码器注意力层，但没有遮蔽操作。
多头注意力允许解码器对编码器的输出进行注意力计算，以捕捉与当前解码位置相关的编码器信息。
它帮助解码器在生成每个目标位置的预测时，结合编码器的上下文信息，以更好地对输入序列进行对齐和建模。

前馈神经网络（Feed-Forward Network）：

前馈神经网络是解码器中的最后一个组件。
它接收遮蔽多头注意力和多头注意力的输出，并通过一层或多层的全连接神经网络进行非线性变换。
前馈神经网络层有助于解码器对特定目标位置进行更深入的建模和预测，以生成最终的输出序列。

如何实现并行

编码器和解码器的堆叠

通过堆叠多个编码器层和解码器层，可以增加模型的表示能力和深度。

Encoder和Decoder是累加的形式，既然是累加的形式，则要求输入和输出保持一致。

编码器和解码器的联系

编码器和解码器之间存在辫子连接，主要体现在以下两个方面：

编码器-解码器注意力机制（Encoder-Decoder Attention）：在解码器的每个解码器层中，引入了编码器-解码器注意力机制。这个注意力机制使得解码器可以关注编码器的输出，从而将编码器的上下文信息引入到解码器的生成过程中。通过编码器-解码器注意力，解码器可以在生成目标序列的每个位置时，动态地关注与之对应的源语言序列的不同位置。这有助于解码器更好地利用编码器的信息，提高生成的准确性和一致性。
编码器的输出作为解码器的输入：编码器的最后一层的输出被传递给解码器作为输入。这样，解码器在生成目标序列时可以直接访问编码器的表示和上下文信息。编码器的输出向解码器提供了一个初始的上下文向量，起到了引导解码器生成合理输出的作用。

因为编码器和解码器都是可堆叠的，所以旁边显示的是Nx。

原始论文：编解码器均为6层，即N=6

Transformer的位置编码

Transformer 模型中的位置编码（Positional Encoding）是为了在输入序列中引入位置信息，以帮助模型学习序列中的顺序和位置关系。由于 Transformer 模型没有像循环神经网络（RNN）那样的显式顺序处理机制，位置编码可以为模型提供序列中不同位置的信息。

位置编码通常是通过在输入序列的嵌入表示中添加一个表示位置的向量来实现的。

一种常用的位置编码方法是使用正弦和余弦函数。对于输入序列中的每个位置，使用以下公式计算位置编码向量：

公式：

$\text{PE}(pos,2i) = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$

$\text{PE}(pos,2i+1) = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$
其中， $pos$ 表示位置， $i$ 表示维度索引， $d_{\text{model}}$ 表示输入嵌入向量的维度。位置编码向量中的偶数索引位置使用正弦函数，奇数索引位置使用余弦函数。

通过这种方式，位置编码将不同位置的单词表示映射到不同的位置编码向量，使得模型能够通过位置编码来区分不同位置的单词。

在Transformer模型中，位置编码与词嵌入向量相加，成为模型的输入。这样，模型就能同时利用词嵌入的语义信息和位置编码的顺序信息来进行计算和建模，从而更好地处理序列数据。

Transformer的输入和输出

输入是：待翻译的句子+已翻译的词汇
假如待翻译的句子长度是L，则使用One-hot编码，是L个One-hot维度的向量。One-hot维度和字典长度有关系。然后经过Input Embeding（嵌入层），嵌入层会对其进行降维，降到我们使用的一个 $d_{model} = 512$ 的维度。

同样的，已翻译的词汇，加入个数是M个，使用One-hot编码，是M个One-hot维度的向量。然后经过Output Embeding（嵌入层），嵌入层会对其进行降维，降到我们使用的一个 $d_{model} = 512$ 的维度。

L和M不一定相同

输出：单词的概率

Transformer输入的嵌入

Transformer输出的嵌入

三级目录

计算机视觉与深度学习-循环神经网络与注意力机制-Attention（注意力机制）-【北邮鲁鹏】

2023-09-23T08:43:29.000Z

原文发布于 CSDN：https://blog.csdn.net/m0_49683806/article/details/133200309

序列到序列学习：输入和输出都是长度不同的序列

引出Attention

传统的机器翻译是，将“机器学习”四个字都学习之后，拿着最后一个编码的信息去进行翻译。但是有个问题，就是在进行翻译的时候，“学习”两个字对“机器”翻译成“machine”并没有什么帮助。我们希望在进行前两个字翻译的时候，包含的学习的信息只有“机器”这两个字。

就是很多时候，特别当序列很长很长的时候，最后一个总编码，里面可能把前面信息都丢掉了，如果我有一些注意力机制的时候，我在翻译不同的词的时候，用这序列里面不同的位置的那些不同的位置的字，那可能信息翻译的准确度就会更高一些。

定义

注意力机制（Attention Mechanism）是一种用于增强神经网络模型在处理序列数据时的能力的技术。它在序列到序列（Sequence-to-Sequence）任务中特别常见，如机器翻译、语音识别和摘要生成等任务。

在传统的序列模型中，模型会对整个输入序列进行编码，然后使用编码的固定长度向量进行解码。然而，这种固定长度向量无法充分表示长序列中的所有信息，尤其是对于较长的输入序列，容易出现信息丢失或模糊的问题。

注意力机制通过在解码过程中动态选择性地聚焦（focus）输入序列的特定部分，使模型能够根据输入序列的不同部分调整其关注和权重分配。它允许模型根据当前解码步骤的需要，动态地分配不同的注意力或权重给输入序列的不同位置，以捕捉关键信息。

一般而言，注意力机制包含以下几个关键组成部分：

查询（Query）：在解码过程中，当前的解码器状态会被用作查询向量，表示当前要生成的目标序列的部分。
键（Keys）和值（Values）：输入序列经过编码器后得到的键和值。键和值的数量与输入序列的长度相同。
注意力权重（Attention Weights）：通过计算查询向量与每个输入序列位置的关联程度，得到对应的注意力权重。注意力权重表示了解码器在解码时应该关注输入序列中的哪些部分。
上下文向量（Context Vector）：将注意力权重与值进行加权求和，得到一个上下文向量。上下文向量是对输入序列的加权汇总，用于提供给解码器更丰富的信息。

注意力机制的引入使模型能够根据输入序列的不同部分调整其关注和重要性，从而提升模型的表现能力。它在序列任务中广泛应用，并取得了显著的效果改进。

Attention-based model

基于注意力机制的模型（Attention-based model）是一种神经网络架构，通常采用编码器-解码器（Encoder-Decoder）框架。编码器负责处理输入序列，并生成表示输入信息的隐藏状态或嵌入向量。解码器根据编码器的表示和先前生成的标记，生成输出序列。

注意力机制使解码器能够动态地聚焦输入序列的不同部分，根据当前解码步骤自适应地选择性地关注相关信息。这使得模型能够有选择地关注输入序列的重要部分，为解码器提供更丰富的上下文信息。

以下是基于注意力机制的模型的高级概述：

编码器：输入序列经过编码器网络处理，可以是循环神经网络（RNN）、卷积神经网络（CNN）或Transformer。编码器将输入序列转化为隐藏状态或嵌入向量，捕捉输入信息。
解码器：解码器网络以编码器的隐藏状态或嵌入向量为输入，并生成输出序列。在每个解码步骤中，解码器使用注意力机制关注输入序列的不同部分，以确定最相关的信息。
注意力计算：注意力机制计算注意力权重，表示每个输入位置对当前解码步骤的重要性或相关性。注意力权重是根据解码器的隐藏状态和编码器的隐藏状态计算得出的。
上下文向量：利用注意力权重对编码器的隐藏状态进行加权求和，得到上下文向量。上下文向量提供给解码器一个对输入序列相关部分的汇总表示。
解码和下一个标记生成：上下文向量、解码器的隐藏状态和先前生成的标记一起，用于生成输出序列中的下一个标记。这个过程迭代地重复，直到生成完整的输出序列。

假设我们存在一个可学习的向量，叫做 $z^0$ ，还是机器学习这四个字，我希望翻译“machine”，我希望这个单词里面就是“机”和“器”，这两个的特征。希望他两个特征作为我的输入。则使用 $z^0$ 和这四个字的向量 $h^1,h^2,h^3,h^4$ 进行匹配。然后输出一个 $0-1$ 的实数。

到我们真实做的时候，我们就直接算点乘，这个z向量，跟这个h向量，点乘，完了后得到一个值。

$z^0$ 与四个h向量点乘后，得到四个值。然后使用softmax进行概率化，这四个数值概率化后总和为一，我们希望这个总和以后得到这样一组权重。这四个权值分别拿来跟四个字的向量进行相乘，我的总向量就是由权值和他对应的编码相乘。

因此在翻译“machine”的时候，特征里面只包含 $h^1,h^2$ 。

同理，再把 $z^1$ 拿出来，跟四个h向量进行点乘，也能得到一组权值。

因此在翻译“learning”的时候，特征里面只包含 $h^3,h^4$ 。

当然最后这个在这种预测任务里面，还是要加一个终止符。

就输入来说， $c^0$ 和 $c^1$ 就跟我们原来不一样，原来是把混合到最后一个时刻的都拿出来，现在不一样，最后一个时刻确实是包含着前面时刻，但是我不光用最后一个时刻，我还用前面这时刻的，只用attation了以后，我这个时候就更注重前面时刻的信息。

注重在我关注的哪个点。我就注重哪个点的信息

通俗解释

当我们处理信息时，往往需要选择性地关注某些部分而忽略其他部分。类比于人类的注意力，注意力机制就是一种模拟人类关注力的技术。

想象一下，当你在听某个人说话时，你会将注意力集中在他们的声音和表情上，而忽略其他背景噪音或其他人的讲话。这种集中注意力的能力使你能够更好地理解他们说的话并作出适当的回应。

在计算机模型中，注意力机制的作用类似。当模型处理序列数据时，比如一句话或一段文本，注意力机制能够帮助模型选择性地关注输入序列的不同部分，根据当前任务的需要给予不同部分不同的重要性。

具体而言，注意力机制通过计算每个输入位置与当前处理步骤的关联程度，得到对应的权重。这些权重表示了模型在解决当前问题时应该关注输入序列的哪些部分。根据这些权重，模型可以动态地调整对输入序列不同位置的关注程度，以捕捉到关键的信息。

注意力机制的好处是它能够帮助模型更好地处理长序列或复杂的信息。通过集中关注重要的部分，模型能够更准确地理解输入并做出更好的预测或生成结果。

应用在图像领域

图像字幕生成（image caption generation）

这一段文字产生可以用时序的，但是这个地方的这个特征，图像用cnn，可能提到一个特征，那时候这两个东西连接不到一起去。使用attention机制。比如women这个单词，这个里面想跟图像的存在women这块区域有关，而跟其他那些地方没关。

怎么实现呢？

我们把图像打成六个区块或者八个或者16个或者24个或者64个区块，每个区块去提取一个特征，把这些特征按位置放起来，就得到了也是一个时序的东西。

有了时序，使用 $z^0$ 跟这个可以做match，match完了以后。z0跟这个所有特征做match得到一个权重。然后这个权重，就是由这些特征每个不同的图像位置的权重跟他的特征累加起来的。然后去预测第一个单词

那反过来，第一个单词通过这几个权重，就能看出来这第一个单词跟图像的位置有关系

同理 $z^1$ 继续进行match后预测

通过看这个单词看到的权重，就知道这个单词跟哪个区域相关。

当然权重不是只有一或者零，有的地方亮就是表示跟他相关度高，这暗的地方表示相关度低。

飞盘已经能知道，这个单词是靠图像的亮这块区域做的决定，狗是靠图像的这块区域做的

还有一些错误的，翻译都翻译错的了。

视频处理

把图像的一个视频序列，把图像的每一帧当做一个特征，每一帧是提取10个特征。

当把这个时间序列和这个语言序列，跟我的这个图像的时间序列就做对齐的时候，就做这种注意力相关的时候，发现单词和视频的某些帧有对应。

成大事

使用Docker部署Python Flask（深度学习）应用

准备工作

创建Flask应用

requirements.txt

使用pipreqs快速生成

编写Dockerfile

构建Docker镜像

运行Docker容器

总结

【强化学习的数学原理-赵世钰】课程笔记（六）随机近似与随机梯度下降

参考引用

一.内容概述

二.激励性实例（Motivating examples）

三.Robbins-Monro 算法（RM 算法）：

1.算法描述

【强化学习的数学原理-赵世钰】课程笔记（五）蒙特卡洛方法

一.内容概述

二.激励性实例（Motivating examples）

三.最简单的基于 MC 的 RL 算法：MC basic

1.将策略迭代转换为无模型迭代（Convert policy iteration to be model-free）

【强化学习的数学原理-赵世钰】课程笔记（四）值迭代与策略迭代

参考引用

一.内容概述

二.值迭代算法（value iteration algorithm）

1.第 1 步：策略更新（policy update）

2.第 2 步：价值更新（value update）

3.流程总结，程序概要，并写成伪代码

4.举例

三.策略迭代算法（policy iteration algorithm）

1.算法介绍

2.policy iteration algorithm 的具体实现

3.例子

（1）例子1

（2）例子2

四.截断策略迭代算法（Truncated policy iteration algorithm）

五.总结

【强化学习的数学原理-赵世钰】课程笔记（三）贝尔曼最优公式

学习引用

内容梗概

1. 第三章主要有两个内容

2. 第二章大纲

二.激励性实例（Motivating examples）

三.最优策略（optimal policy）的定义

【强化学习的数学原理-赵世钰】课程笔记（二）贝尔曼公式

一. 内容概述

1. 第二章主要有两个内容

2. 第二章大纲

二. 激励性实例（Motivating examples）

1. 例子1：为什么回报/收益（return）很重要？

（1）什么是回报（return） ？

（2）为什么回报（return）很重要？

2. 例子2：如何计算回报（return）？

（1）方法1：通过定义

（2）方法2：

三. 状态值（state value）

四. 贝尔曼公式：推导

1. 推导

2. 例子

（1）例子1：

（2）例子2

五.贝尔曼公式（ Bellman equation）：矩阵向量形式（Matrix-vector form）

1. 推导出矩阵向量形式：

2. 例子

（2）例子2

六.贝尔曼公式（ Bellman equation）：求解状态值（state value）

1.求解

2.例子

七.动作值（action value）

1.动作值定义

2.动作值与状态值的联系

3.例子

八.总结

【强化学习的数学原理-赵世钰】课程笔记（一）基本概念

一. 内容概述

1. 通过案例介绍强化学习中的基本概念

2. 在马尔可夫决策过程（MDP）的框架下将概念正式描述出来

二. 通过案例介绍强化学习中的基本概念

1. 网格世界（A grid world example）

2. 状态（State）

（1）什么是回报（return）？

linux（centos7）常用命令开启关闭防火墙

使用 `hostnamectl` 命令