lamusique-CSDN博客

原创 Sparse Reward的思考——Hierarchical RL

背景现在就出现了另外一个场景，就是我们的目标是多个步骤的。可能在中间的某个步骤，很难获得最好的收益。举个例子，小孩子在学习和玩耍的过程看成一个强化的过程。比如，下一步如果选择玩耍，下一步可以得到1分，但是最终是-100分。对于学习步骤，下一步可能是-1分，但是最终是100分。但是我们的机器在选择适合，可能会选择玩耍，因为最终的reward是多步的，比较难以学习。在这种情况下，就需要用到sparse reward的场景。通常情况下，Agent 每一步操作有一个 reward 对应，但是，当 rewar

2022-04-30 14:32:42 541

原创大白话论《马尔科夫链蒙特卡洛采样》MCMC原理

1、技术优势与传统均匀采样不同，马尔科夫链蒙特卡洛采样通过调整建议采样分布函数，逼近于目标函数。从建议分布中采样，就相当于对目标函数的采样。针对特殊的采样目标函数，不断采样、训练建议采样分布，始终具有很好采样效果自探索、自发现的动态调整采样点，利用前期采样点的信息，采样过程具备收敛性采样效率高，克服“接受-拒绝”采样方法对于特殊目标函数、采样点不易被接受、因而采样次数增大的缺点。上面是理想的“接受-拒绝”采样适用方法，选择某一建议分布，划分拒绝与接受。但一旦遇到以下这种情况，.

2022-03-27 23:29:31 3130

原创遗传算法的原理与demo

遗传算法python（含例程代码与详解)_馋学习的身子的博客-CSDN博客_遗传算法python代码

2022-03-26 19:19:16 522

原创模拟退火(SA, Simulated Annealing)算法解决旅行商TSP问题

01 什么是旅行商问题(TSP)?TSP问题（Traveling Salesman Problem，旅行商问题），由威廉哈密顿爵士和英国数学家克克曼T.P.Kirkman于19世纪初提出。问题描述如下：有若干个城市，任何两个城市之间的距离都是确定的，现要求一旅行商从某城市出发必须经过每一个城市且只在一个城市逗留一次，最后回到出发的城市，问如何事先确定一条最短的线路已保证其旅行的费用最少？如下图所示：02 模拟退火算法（Simulate Annealing Arithmetic，SAA）

2022-03-24 21:19:52 5583

原创基于PPO梯度优化、AC框架的强化学习——离散动作怎么用

【强化学习】⚠️手把手带你走进强化学习 2⚠️ OPP 算法实现月球登陆器 (PyTorch 版)_我是小白呀的博客-CSDN博客

2022-03-21 20:34:13 3337 1

原创 PPO和DDPG的差别

PPO 的重要性PPO是目前非常流行的增强学习算法，OpenAI把PPO作为目前的baseline算法，也就是说，OpenAI在做尝试的时候，首选PPO。可想而知，PPO可能不是目前最强的，但可能是目前来说适用性最广的一种算法。PPO是基于AC架构的，也就是说，PPO也有两个网络，分别是Actor和Critic，这是因为AC架构有一个好处。这个好处就是解决了连续动作空间的问题。连续动作首先，我们要想办法处理连续动作的输出问题。离散情况：假设动作空间有只有action1 和 action2，

2022-03-21 00:17:50 5248 2

原创这大概是我看得最好的策略梯度算法了吧

这两天看了一下李宏毅老师的强化学习课程的前两讲，主要介绍了Policy Gradient算法和Proximal Policy Optimization算法，在此整理总结一下。视频地址：李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili1、PG算法回顾在PG算法中，我们的Agent又被称为Actor，Actor对于一个特定的任务，都有自己的一个策略π，策略π通常用一个神经网络表示，其参数为θ。从一个特定的状态state出发，一直到任务的结束，被称为一个完整的eposide，在每

2022-03-19 13:14:05 204

转载 TransE模型的python代码实现

TransE模型的简单介绍&TransE模型的python代码实现_土豆面包的博客-CSDN博客_transe模型

2022-02-22 20:20:28 1175

转载 Python实现曲线点抽稀算法的示例

https://www.jb51.net/article/125561.htm转载学习

2022-02-22 20:08:32 355

原创基于Dijkstra的K条最短路径算法：Yen‘s Algorithm

Dijkstra算法【史上最清晰】手写迪杰斯特拉-Dijkstra（考试用）_哔哩哔哩_bilibiliK条最短路径算法：Yen's Algorithm算法背景K 最短路径问题是最短路径问题的扩展和变形。1959 年，霍夫曼(Hoffman) 和帕夫雷(Pavley)在论文中第一次提出k 最短路径问题。 k 最短路径问题通常包括两类：有限制的k 最短路问题和无限制的K 最短路问题。前者要求最短路径集合不含有回路，而后者对所求得的最短路径集合无限制。算法简介Yen's算法是Yen

2022-02-22 17:09:12 2233 1

原创我的第二次知识图谱问答（末尾gan货）

这是知识图谱问答博客的系列二，相比于上一篇博客我的第一次知识图谱问答，区别在于，创建知识图谱的方式不一样、意图识别+槽位提取的方法不同。

2022-02-06 19:52:15 1335

原创我的第一次知识图谱问答

这次想写一个知识图谱问答系列，从文本读取的知识图谱元素到智能处理的对话问答系统，涉及到实体识别、意图识别、槽位提取等技术。这里解释一下名词的含义。实体识别：这个一般处理是正则表达式，或者是训练分类也就是BIO标签tag+softmax....有些人说是前者规则，后者学习。哈哈哈都行~~~意图识别：就是判别这个问题是什么类型的问题，表示什么意思。比如，感冒可以吃什么药。我们可以知道这个问题是根据病来查吃什么药。。槽位提取：就是对提的问题关键词进行提取，问题的关键词就是需要提取的槽位，上面一个例子

2022-02-05 19:43:54 1830

原创小波变换的前因后果（三）

小波去噪是建立在DWT的基础上的，需要进行小波分解、再重构。接上一篇。小波分析即用Mallat塔式算法对信号进行降阶分解。该算法在每尺度下将信号分解成近似分量与细节分量。近似分量表示信号的高尺度，即低频信息；细节分量表示信号的低尺度，即高频信息。对含有噪声的信号，噪声分量的主要能量集中在小波分解的细节分量中。二、小波去噪1、概念通常情况下，我们在从设备上采集到的信号都是具有一定的噪声的，大多数情况下，可认为这种噪声为高斯白噪声。被噪声污染的信号=干净的信号+噪声。为什么要使用阈值..

2021-12-05 22:03:27 4438

转载小波变换的前因后果（二）

上一章介绍了为什么要小波变换，是篇启发文。分别是解决傅里叶对局部信息不敏感、对时刻时频分析能力欠缺，衍生出来小波变换。又简单知道了小波变换的公式：尺度因子决定小波伸缩(频率)、时移因子决定滑动平移。下面开始详细介绍什么是小波变换，即CWT、DWT两种形式。一、小波变换小波变换是一种信号的时间——尺度（时间——频率）分析方法，它具有多分辨分析的特点，而且在时频两域都具有表征信号局部特征的能力，是一种窗口大小固定不变但其形状可改变，时间窗和频率窗都可以改变的时频局部化分析方法。即在低频部分具有较低的时

2021-12-05 22:00:45 783

转载小波变换的前因后果（一）

博主将结合比较优质的博客来进行本文串讲。首先第一要想的是为什么需要小波变换？为什么需要小波变换？小波，一个神奇的波，可长可短可胖可瘦（伸缩平移），当去学习小波的时候，第一个首先要做的就是回顾傅立叶变换，因为他们都是频率变换的方法，而傅立叶变换是最入门的，也是最先了解的，通过傅立叶变换，了解缺点，改进，慢慢的就成了小波变换。主要的关键的方向是傅立叶变换、短时傅立叶变换，小波变换等，第二代小波的什么的就不说了，太多了没太多意义。当然，其中会看到很多的名词，例如，内积，基，归一化正交，投影，Hilb

2021-12-05 20:47:07 523

转载是时候对时序信号下手了（一）

自相关系数和偏相关系数在回归分析里面有过协方差和相关系数协方差与相关系数，这里再多讲一句，协方差是会受到单位的影响的，而相关系数就是消除了量纲的影响，来看两者的相关性。这里讲的自相关系数可以说是根据最原始的定义引伸出来的。下面分别讲一下我对自相关系数和偏自相关系数的理解。自相关系数其实自相关系数可以这么理解：把一列数据按照滞后数拆成两列数据，在对这两列数据做类似相关系数的操作。看一个例子：这组数据是求滞后数为2的自相关系数，则变成求{x1,x2,...,x8}和{x3,x4,

2021-12-05 20:02:53 238

原创对“科大讯飞2021丨广告点击率预估挑战赛 Top1方案(附完整代码)_Jack_Yang的博客-CSDN博客”的补充。

这篇文章的初衷是针对科大讯飞2021丨广告点击率预估挑战赛 Top1方案(附完整代码)_Jack_Yang的博客-CSDN博客进行补充。博客的信息量很少，对任务背景的介绍也不太对，说实话令人费解。我想的是能不能写份博客视为补充，更加严谨，也是这份博客的缘由。比赛是讯飞的比赛2021 iFLYTEK A.I.开发者大赛-讯飞开放平台。大赛已经结束，博主也没能拿到数据，很遗憾只能介绍结合大赛数据格式、代码说明算法设计的思维。1. 任务背景广告点击率预估是在线广告交易的核心环节之一，如果说一..

2021-12-03 20:34:25 2381 1

转载 Prophet的原理知识

目录1、Prophet 简介2、Prophet 适用场景3、Prophet 算法的输入输出4、Prophet 算法原理5、Prophet 使用时可设置的参数6、Prophet 学习资料参考7、Prophet 模型应用7.0 背景描述 7.1 导入数据 7.2 拟合模型 7.3 预测（使用默认参数） 7.4 趋势突变点 7.5 季节性、假期效应 7.6 模型诊断（内置方法） 7.7 模型评估正文1、Prophet 简介fbprophet是facebook

2021-12-02 22:49:09 7257

原创 PageRank算法原理及代码

参考博客：https://blog.csdn.net/skysenlin/article/details/110094892

2021-05-04 13:05:57 385

原创文本分类——搭建Transformer模型

文本分类——搭建Transformer模型Keras官方案例链接Tensorflow官方案例链接Paddle官方案例链接Pytorch官方案例链接本文参考博客有：https://blog.csdn.net/qq_44574333/article/details/109637755注：本系列仅帮助大家快速理解、学习并能独立使用相关框架进行深度学习的研究，理论部分还请自行学习补充，每个框架的官方经典案例写的都非常好，很值得进行学习使用。可以说在完全理解官方经典案例后加以修改便可以解决大多数常见.

2021-04-24 16:43:41 1588

原创 BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结

BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结请参考博客：https://blog.csdn.net/liuxiao214/article/details/81037416

2021-04-24 15:14:46 110

原创看懂GCN的底层源码

图卷积神经网络(GCN)理解与tensorflow2.0代码实现https://blog.csdn.net/VariableX/article/details/109820684

2021-04-21 22:33:15 605

原创【论文笔记】DeepWalk

本文是第一个将NLP中的思想用在网络嵌入(Network Embedding,NE)上的。Introduction文章简介部分介绍了网络嵌入是什么，以社交网络为例，网络嵌入就是将网络中的点用一个低维的向量表示，并且这些向量要能反应原先网络的某些特性，比如如果在原网络中两个点的结构类似，那么这两个点表示成的向量也应该类似。本文提出了一种网络嵌入的方法叫DeepWalk，它的输入是一张图或者网络，输出为网络中顶点的向量表示。DeepWalk通过截断随机游走(truncated random walk

2021-04-21 22:30:45 94

原创图卷积神经网络(GCN)

0 前言GCN问世已经有几年了（2016年就诞生了），但是这两年尤为火爆。本人愚钝，一直没能搞懂这个GCN为何物，最开始是看清华写的一篇三四十页的综述，读了几页就没读了；后来直接拜读GCN的开山之作，也是读到中间的数学部分就跪了；再后来在知乎上看大神们的讲解，直接被排山倒海般的公式——什么傅里叶变换、什么拉普拉斯算子等等，给搞蒙了，越读越觉得：“哇这些大佬好厉害，哎我怎么这么菜！”。就这么反反复复，尝试一次放弃一次，终于慢慢有点理解了，慢慢从那些公式的里跳了出来，看到了全局，也就慢慢明白了GCN的原理

2021-04-21 14:50:14 16346 6

转载【转载】scrapy爬虫框架和selenium的配合使用

前期有学过scrapy框架，目前想整合selenium进行学习！

2021-03-05 21:16:07 145

转载小内存、多迭代——增量训练方法

继优化内存、分块读取理念之后，我觉得下一步应该是增量训练方法的应用机器学习-增量训练方法1. 为什么要增量训练做过机器学习的同学都知道，有时候训练数据是很多的，几十万几百万也是常有的事。虽然几十万几百万只看记录数不算多，但是如果有几百个特征呢，那数据集是很恐怖的，如果存成numpy.float类型，那绝对是把内存吃爆。（其实np.float类型只占用了9M内存，相比于24M的str算很小了）我就是在这种情况下，开始考虑增量模型的增量训练。现在的机器都很便宜了，为什么不能放在服务器上.

2021-01-16 21:21:39 1916

转载白嫖——Keras实现BiLSTM+CRF中文命名实体识别

代码白嫖+原理介绍：请看这篇博客。。。https://blog.csdn.net/huanghaocs/article/details/96568992?utm_medium=distribute.pc_feed_404.none-task-blog-BlogCommendFromBaidu-2.nonecase&depth_1-utm_source=distribute.pc_feed_404.none-task-blog-BlogCommendFromBaidu-2.nonecas...

2021-01-16 21:14:21 394

原创速度优化——python的pandas批量读取CSV、Excel等文件

速度优化——python的pandas批量读取CSV、Excel等文件有一堆命名、格式、内容样式都一样的文件，逐个读取过于麻烦，那么可以选择批量读取（本质上是多线程的思想）import pandas as pdimport numpy as npimport glob,ospath=r'D:/data' #批量表格所在文件路径file=glob.glob(os.path.join(path, "HIST_DMIND_MERGE_201809**.csv")) #每一...

2021-01-10 16:11:50 2776 1

原创内存优化——使用pandas读取千万级数据

超级干货：Python优化之使用pandas读取千万级数据环境：Linux-cenos5processor : 31model : 62model name : Intel(R) Xeon(R) CPU E5-2640 v2 @ 2.00GHzcpu MHz : 2000.066cache size : 20480 KBmemory : 125G在如上所述的单机环境中，使用一些优化可以使基于pandas数据格式的模型训练数据容量由600W增长为至少2000W，训练时间减少.

2021-01-10 16:08:32 7370

原创特征相关性分析

一、绘图判断一般对于强相关性的两个变量，画图就能定性判断是否相关散点图 seaborn.scatterplot # 散点图矩阵初判多变量间关系data = pd.DataFrame(np.random.randn(200,4)*100, columns = ['A','B','C','D'])pd.plotting.scatter_matrix(data,figsize=(8,8), c = 'k',

2020-12-28 23:07:11 9930 1

原创应用 - gensim如何得到word2vec词向量

从三个方面去说明word2vec词向量中文语料处理(python gensim word2vec总结） python训练work2vec词向量系列函数（python gensim） python训练work2vec词向量实例（python gensim）一、word2vec词向量中文语料处理(python gensim word2vec总结）目录中文语料处理法一：语料处理为列表法二：语料是文件（处理为迭代器）对一个目录下的所有文件生效（法1） ...

2020-12-04 19:48:32 3587

原创从Crop、Warp开始讨论RoIPooling与RoIAlign的区别

一、RoIPooling与RoIAlign1.1、RoIPooling通过对Faster RCNN的学习我妈了解的RolPooling可以使生成的候选框region proposal映射产生固定大小的feature map先贴出一张图，接着通过这图解释RoiPooling的工作原理针对上图 1)Conv layers使用的是VGG16，feat_stride=32(即表示，经过网络层后图片缩小为原图的1/32),原图800*800,最后一层特征图feature map大小...

2020-11-04 11:57:52 971

原创 ResNet+FPN实现+白嫖代码

===========================================================有现成的代码：https://github.com/Kongsea/FPN_TensorFlow推荐根据该博客来学习：https://www.jianshu.com/p/324af87a11a6============================================================纸上得来终觉浅，须知此事要coding！ResNet+FPN

2020-11-04 10:57:31 12616 1

转载 RPN详解

RPN 思路：1、先通过conv层+pooling层+relu层，可以是vgg，得到featuremaps。2、在featuremaps上提取对应的图。在第一步基础上，先通过rpn生成regionproposals。通过softmax判断anchors（9个框），是foreground还是background，再通过boundingboxregression进行修正anchors，也就是进一步确定proposals。3、目的是为了得到proposalsfeat...

2020-11-03 16:38:11 7028

原创 MTCNN教学+代码白嫖

MTCNN（Multi-task convolution network）多任务卷积神经网络https://www.bilibili.com/video/BV1i741177hd?p=2https://www.bilibili.com/video/BV1fJ411C7AJhttps://github.com/bubbliiiing/mask-recognizehttps://blog.csdn.net/weixin_44791964/article/details/103530206...

2020-10-31 10:18:44 255

原创如何DIY ResNet的分类问题

参考博客：https://www.jianshu.com/p/c4723a4409cf白嫖代码！！！

2020-10-26 21:39:52 302

转载 ResNet的细节之处

1、 RestNet网络1.1、 RestNet网络结构ResNet在2015年被提出，在ImageNet比赛classification任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域里得到广泛的应用。它使用了一种连接方式叫做“shortcut connection”，顾名思义，shortcut就是“抄近道”的意思，下面是这个resnet的网络结构：它对每层的输入做一个reference（X）, 学习形成

2020-10-26 15:14:58 457

空空如也

空空如也