LeetCode977：有序数组的平方

题目描述：方法1：直接平方，然后排序 class Solution { public: vector<int> sortedSquares(vector<int>& nums) { for(int i=0;i<nums.size();i++){ nu

LeetCode27：移除元素

题目描述：方法1：使用双指针，快慢指针，慢指针用于将所有不等于val的元素前移，fast指针用于寻找每个不等于val的元素 class Solution { public: int removeElement(vector<int>& nums, int val) { in

SpringBoot中，通常有两种配置文件 properties yml / yaml 理论上讲 properties 可以和 yml ⼀起存在于⼀个项目当中, 两个配置文件均会加载，同key以properties为主 properties 默认的配置文件格式键值的形式配置 # 设置MySQL的链

题目描述：方法1：二分查找注意点： middle = (left + right) / 2，最好改为middle = left + ((right - left) / 2)，不然可能会发生溢出 left <= right，而不是< class Solution { public: int

策略梯度方法要得到更好的策略，即让该策略下，状态价值均值很大可以用梯度上升去更新策略网络，对状态价值均值求导可转换为对策略网络求导无法直接求出这个期望，因为不知道状态 S 概率密度函数，可以使用采样的方式去近似，g(s, a; θ) 是策略梯度 ∇θJ(θ) 的无偏估计

价值函数动作价值函数最优动作价值函数一个状态的最优动作价值由两部分组成，一部分离开状态 s 的即刻奖励，另一部分则是所有能到达的状态 s’ 的最优状态价值

题目描述：方法1：回溯，全部在原字符串处理，即backtrack参数一直是原字符串，len表示起始位置 class Solution { public: vector<string> result; vector<string> data; bool judge(strin

题目描述：方法1：排列形式的完全背包问题 #include <iostream> #include <vector> using namespace std; int climb(int n,int m){ vector<int> dp(n+1,0); dp[0] = 1;

纯完全背包（题型1，3）考虑的是最大价值，所以不用管遍历顺序求最小数（题型4）也不用管遍历顺序 01背包二维初始化：j >= weight[0]时，dp[0][j] = value[0]，（题型1，3），dp[0][0]分情况讨论或dp[0][0] = 1，其余全0（题型2，参考目标和）一维初

ROBUST REINFORCEMENT LEARNING ON STATE OBSERVATIONS WITH LEARNED OPTIMAL ADVERSARY 中文：基于学习的最优对手的状态观测下的稳健强化学习解决问题：作者提出了一种交替训练框架（ATLA），在训练过程中在线训练对手和代理，