LeetCode102:二叉树层次遍历

题目描述: 方法1:非递归,使用队列辅助 class Solution { public: vector<vector<int>> levelOrder(TreeNode* root) { vector<vector<int>> result; queue<T


queue

头文件:#include<queue> 常用操作: queue<int> q; //以int型为例 int x;


LeetCode125:验证回文串

题目描述: 方法1:先去掉所有非字母数字的字符,然后全部变为小写或者大写,然后反转后比一遍


深度学习八股

1、激活函数 为什么需要激活函数:深度学习模型本质上是对函数的拟合,但是神经网络层都是线性,无法进行非线性建模,所以需要引入非线性的激活函数 特点:非线性、可微性(不然无法反向传播)、单调性) 为什么通常需要单调性:1、若不单调,反向传播更新时,导数有正有负,梯度方向不稳定;2、可能出现多个极小值,


LeetCode189:轮转数组

题目描述: 方法1:用一个新数组存最后 k 个数字,然后把最后 k 个数字之前的数字依次向后移动 k 位,最后把新数组中数组存回原数组头部 class Solution { public: void rotate(vector<int>& nums, int k) { vec


LeetCode26:删除有序数组中的重复项

方法1:双指针,快指针遍历数组,慢指针表示新数组数组最后一个元素的下标位置 class Solution { public: int removeDuplicates(vector<int>& nums) { int slow = 0, fast = 1; w


LeetCode88:合并两个有效数组

方法1: 双指针不断遍历nums1和nums2数组,不断把结果放入新数组中,最后把新数组赋值给nums1 class Solution { public: void merge(vector<int>& nums1, int m, vector<int>& nums2, int n) {


QAC、A2C、A3C 算法对比

QAC、A2C、A3C 均是 on policy 的强化学习算法 QAC、A2C、A3C 均是基于策略的强化学习算法,以 actor-critic 为基础架构,其中 actor 为策略网络,critic 为评价 actor 中当下策略的网络 actor 的目的是从 critic 网络得到高评价,cr


在线策略强化学习,离线策略强化学习,离线强化学习

强化学习可以分为在线策略强化学习,离线策略强化学习,离线强化学习 无论是在线策略(on-policy)算法还是离线策略(off-policy)算法,都有一个共同点:智能体在训练过程中可以不断和环境交互,得到新的反馈数据。二者的区别主要在于在线策略算法会直接使用这些反馈数据,而离线策略算法会先将数据存