2 Zoeen

学生身份

我要认证

暂无相关简介

等级
TA的排名 23w+

anaconda安装pytorch

CPU版本:https://pytorch.org/get-started/previous-versions/#CPU onlyconda install pytorch1.2.0 torchvision0.4.0 cpuonly -c pytorch参考博客[1]https://blog.csdn.net/u014723479/article/details/103001861?utm_medium=distribute.pc_relevant.none-task-blog-BlogComme

2020-07-01 12:16:03

强化学习系列(6) - Policy-Gradient-Softmax

Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续的值, 之前我们说到的 value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.误差反向传递:这种反向传递的目的是让这次被选中的行为更有可能在下次发生. 但是我们要怎么确定这个行为是不是应当被增加被选的概率呢? 这时候我们的老朋友, reward 奖惩正可以在这时候派上用场,"""RL_brain f.

2020-06-10 11:40:32

强化学习系列(5) - DQN及其改进

采用两个深度神经网络(DNN)来学习状态到动作的映射,和神经网络权重的更新,以解决Q表状态-动作值决策时空间增长而计算存储高复杂度的问题。此外,还包括double DQN(解决过拟合),Prioritized Experience Replay(解决以更低的计算时间获得收敛效果),和Dueling DQN这些对DQN的提升方法。import osos.environ["TF_CPP_MIN_LOG_LEVEL"] = '2'import numpy as np import pandas as.

2020-06-09 10:41:25

强化学习系列(4)-gym环境安装

这个网上已有成熟的教程,直接按步骤即可。附上参考链接:[1] https://blog.csdn.net/qq_34769201/article/details/95667042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogComme.

2020-06-02 11:36:37

强化学习系列(3) -Sarsa

Sarsa也是基于Q表进行增强学习,与系列(1)、(2)中的区别在于状态动作值更新的方法。Sarsa中通过创建与Q表同等大小的eligibility_trace矩阵来进行Q表值的更新。zoe这里自己理解一下eligibility_trace:增大当前动作的权重,拉开当前动作值与其他动作的差距,强化下一步的当前这里通过zoe走迷宫例子再次学习Q-learning。与强化学习系列(1)中思想一致,其区别主要是通过两个类,迷宫环境Maze和zoe大脑QLearningTable来规范化程序,同时在运行函数步骤.

2020-05-26 22:33:33

强化学习系列(2) - Q-learning走迷宫例子

这里通过zoe走迷宫例子再次学习Q-learning。与强化学习系列(1)中思想一致,其区别主要是通过两个类,迷宫环境Maze和zoe大脑QLearningTable来规范化程序,同时在运行函数步骤来清晰化Q学习的过程。Part 1. 迷宫环境class Mazeimport numpy as np import time import sys# 窗口界面库if sys.version_info.major == 2: import Tkinter as tk else: .

2020-05-23 18:28:34

强化学习系列(1) - Q-learning及其实现

最近想学习在线学习方法,对强化学习感兴趣起来,打算系统的学习一下。从典型小例子的动手实践过程中再结合书籍中的理论解释,对‘从与环境交互中学习’会理解的更深刻。有时候想想人这个代理何尝不是与生存的环境交互学习。 由于目前已有针对这些参考资料的详细解释,这里作为快速的学习方法,这个系列只重点记忆一下每个方法的特征和代码实现,后期有其他感悟再不断完善。:) 这里视频,和代码资源参考的是张沫凡RL系列。书籍参考的是Sutton的经典教材,不过是翻译版,emmm。《强化学习》第二版,对应的英文教材是《Reinf.

2020-05-22 07:04:40

matplotlib图例中文显示

https://www.zhihu.com/question/25404709https://blog.csdn.net/u012705410/article/details/47379957?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1&depth_1-utm_sou...

2020-05-08 14:43:32

tensorflow2.1.0安装+ImportError: DLL load failed: 找不到指定的模块

最近想跑tensorflow DRL和keras LSTM,早前写过一篇python+tensorflow+keras,发现怎么改变包的版本都要考虑彼此之间的兼容性,这里直接考虑将tensorflow升级到2020年1月份发布的版本,此外其他第三方库直接调用最新版本来的更简单。1.由于tensorflow2.1.0版本可以与多个python版本相适配,这里的环境介绍如下:python3.5,...

2020-05-08 09:46:18

tensorflow兼容处理 tensorflow.compat.v1

诶最近输出有点匮乏了,原创不够转载来凑 : (https://blog.csdn.net/kyle1314608/article/details/100594884

2020-05-07 22:06:07

泊松分布、泊松过程、泊松点过程

https://www.cnblogs.com/jwmeng/p/7698651.html

2020-04-20 21:26:37

latex-bib参考文献人名特殊字符表示

参考文献以BibTex格式原样拷贝到latex-bib中,编译后生成的pdf文件中特殊字符不能原样显示,并且对应字符显示为‘?’号,解决办法是特殊字符在latex文件中有对应的表示方法,如下。????Special Symbols and escapesLaTeX provides means to describe special characters like accents or umla...

2020-04-12 14:05:43

马尔科夫和李雅普诺夫

马尔科夫还没搞明白,又来了李雅普诺夫惊奇地发现,马尔科夫和李雅普诺夫居然是师兄弟关系,都是切比雪夫的学生,优秀的人总是如此的相似 ????https://blog.csdn.net/u010643777/article/details/103751279https://blog.csdn.net/kMD8d5R/article/details/79987752...

2020-04-04 21:04:52

the One Simulator+MargalhoTutorial

本文尝试借助MargalhoTutorial的参数配置在the One Simulator基础上跑案例,MargalhoTutorial使用的参数配置在网站下有详细给出。the One Simulator:http://www.netlab.tkk.fi/tutkimus/dtn/theone/MargalhoTutorial:http://www.margalho.pro.br/subs...

2020-03-13 17:43:17

Java list删除多个指定索引的元素

本篇博文介绍通过list Integer存储的多个指定的索引来循环删除列表里的元素。索引存储列表:List Integer list想要删除元素的列表:List Integer dataspackage hello;import java.util.ArrayList;import java.util.Arrays;import java.util.List;/** ...

2020-03-13 16:23:21

JDK+Eclipse中配置the One Simulator

本篇博文介绍在JDK和Eclipse环境中配置the One Simulator.环境版本:- JDK 1.8     - Eclipse eclipse-jee-2019-12-R-win32-x86_64     - the One Simulator one_1.5.1-RC2[the One Simulator:http://www.netlab.tkk.fi/tutkimus/...

2020-03-11 16:46:12

资源复用和用户(设备)多址

(1)多址接入技术与MEC结合,在5G异构网络中提升网络QoS和应用性能,这包括网络QoS:通过网络服务质量评价指标衡量,包括时延,能耗,传输速率等应用性能:例如视频流的分辨率,深度学习应用的准确率https://blog.csdn.net/gaoruowen1/article/details/83374296?ops_request_misc=%7B%22request%5Fid%22%3...

2020-03-01 15:19:55

competitive ratio and online learning

https://www.cnblogs.com/zhangzefei/p/9738642.htmlhttps://blog.csdn.net/hzwaxx/article/details/83867630

2020-02-22 00:13:07

non-trivial&& asymptotically tight

non-trivial:https://www.zhihu.com/question/277461723/answer/394556426https://www.zhihu.com/question/20681622/answer/18313127asymptotically tight:https://blog.csdn.net/weixin_34372728/article/detai...

2020-02-18 11:37:12

shortestPathBinaryMatrix

shortestPathBinaryMatrix1. 原问题2. 解决思路原问题 2. 解决思路注意:原问题和对应方法的解决思路统计的是最短路径中所经历的节点数量=路径数+1(1)https://blog.csdn.net/dpengwang/article/details/94354993?ops_request_misc=%7B%22request%5Fid%22%3A%221...

2020-02-14 21:15:33

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。