LeetCode977:有序数组的平方
题目描述: 方法1:直接平方,然后排序 class Solution { public: vector<int> sortedSquares(vector<int>& nums) { for(int i=0;i<nums.size();i++){ nu
题目描述: 方法1:直接平方,然后排序 class Solution { public: vector<int> sortedSquares(vector<int>& nums) { for(int i=0;i<nums.size();i++){ nu
题目描述: 方法1:使用双指针,快慢指针,慢指针用于将所有不等于val的元素前移,fast指针用于寻找每个不等于val的元素 class Solution { public: int removeElement(vector<int>& nums, int val) { in
SpringBoot中,通常有两种配置文件 properties yml / yaml 理论上讲 properties 可以和 yml ⼀起存在于⼀个项目当中, 两个配置文件均会加载,同key以properties为主 properties 默认的配置文件格式 键值的形式配置 # 设置MySQL的链
题目描述: 方法1:二分查找 注意点: middle = (left + right) / 2,最好改为middle = left + ((right - left) / 2),不然可能会发生溢出 left <= right,而不是< class Solution { public: int
策略梯度方法 要得到更好的策略,即让该策略下,状态价值均值很大 可以用梯度上升去更新策略网络,对状态价值均值求导可转换为对策略网络求导 无法直接求出这个期望,因为不知道状态 S 概率密度函数,可以使用采样的方式去近似,g(s, a; θ) 是策略梯度 ∇θJ(θ) 的无偏估计
价值函数 动作价值函数 最优动作价值函数 一个状态的最优动作价值由两部分组成,一部分离开状态 s 的即刻奖励,另一部分则是所有能到达的状态 s’ 的最优状态价值
题目描述: 方法1:回溯,全部在原字符串处理,即backtrack参数一直是原字符串,len表示起始位置 class Solution { public: vector<string> result; vector<string> data; bool judge(strin
题目描述: 方法1:排列形式的完全背包问题 #include <iostream> #include <vector> using namespace std; int climb(int n,int m){ vector<int> dp(n+1,0); dp[0] = 1;
纯完全背包(题型1,3)考虑的是最大价值,所以不用管遍历顺序 求最小数(题型4)也不用管遍历顺序 01背包 二维初始化:j >= weight[0]时,dp[0][j] = value[0],(题型1,3),dp[0][0]分情况讨论或dp[0][0] = 1,其余全0(题型2,参考目标和) 一维初
ROBUST REINFORCEMENT LEARNING ON STATE OBSERVATIONS WITH LEARNED OPTIMAL ADVERSARY 中文:基于学习的最优对手的状态观测下的稳健强化学习 解决问题:作者提出了一种交替训练框架(ATLA),在训练过程中在线训练对手和代理,