LeetCode102：二叉树层次遍历

题目描述：方法1：非递归，使用队列辅助 class Solution { public: vector<vector<int>> levelOrder(TreeNode* root) { vector<vector<int>> result; queue<T

queue

头文件：#include<queue> 常用操作： queue<int> q; //以int型为例 int x;

LeetCode125：验证回文串

题目描述：方法1：先去掉所有非字母数字的字符，然后全部变为小写或者大写，然后反转后比一遍

深度学习八股

1、激活函数为什么需要激活函数：深度学习模型本质上是对函数的拟合，但是神经网络层都是线性，无法进行非线性建模，所以需要引入非线性的激活函数特点：非线性、可微性（不然无法反向传播）、单调性）为什么通常需要单调性：1、若不单调，反向传播更新时，导数有正有负，梯度方向不稳定；2、可能出现多个极小值，

LeetCode189：轮转数组

题目描述：方法1：用一个新数组存最后 k 个数字，然后把最后 k 个数字之前的数字依次向后移动 k 位，最后把新数组中数组存回原数组头部 class Solution { public: void rotate(vector<int>& nums, int k) { vec

LeetCode26:删除有序数组中的重复项

方法1：双指针，快指针遍历数组，慢指针表示新数组数组最后一个元素的下标位置 class Solution { public: int removeDuplicates(vector<int>& nums) { int slow = 0, fast = 1; w

LeetCode88:合并两个有效数组

方法1：双指针不断遍历nums1和nums2数组，不断把结果放入新数组中，最后把新数组赋值给nums1 class Solution { public: void merge(vector<int>& nums1, int m, vector<int>& nums2, int n) {

QAC、A2C、A3C 算法对比

QAC、A2C、A3C 均是 on policy 的强化学习算法 QAC、A2C、A3C 均是基于策略的强化学习算法，以 actor-critic 为基础架构，其中 actor 为策略网络，critic 为评价 actor 中当下策略的网络 actor 的目的是从 critic 网络得到高评价，cr

DDPG、SAC、A3C 算法对比

在线策略强化学习，离线策略强化学习，离线强化学习

强化学习可以分为在线策略强化学习，离线策略强化学习，离线强化学习无论是在线策略（on-policy）算法还是离线策略（off-policy）算法，都有一个共同点：智能体在训练过程中可以不断和环境交互，得到新的反馈数据。二者的区别主要在于在线策略算法会直接使用这些反馈数据，而离线策略算法会先将数据存