2 橘子JUZI

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 30w+

强化学习 ---baselines项目之 Atari游戏的网络结构解析

这个baselines项目设计的比较灵活,结构有点复杂。由于项目庞大,各个函数之间又是相互调用,有时候从一个函数追溯下去,可以追溯6,7层,每个函数的超参数又特别多,很容易把人搞晕。      接下来只看DQN部分的源码,其他无关的先不看,沿着一条线分解它!接下来进行一个递归游戏,一层一层的深入探索。在deepq下有个experiments,...

2020-02-22 16:54:52

实习生去公司都干些啥

人太懒了,就随便说一下      先说下我们计算机相关专业公司招招聘的时的岗位,大方向有两种:研发岗和算法岗。具体细分就很多了。 一般在一个部门里两种岗位都有,人们是相互协作的。有时候是研发的把功能开发完,留下接口给算法的来实现,比如百度的搜索排序算法,哔哩哔哩,抖音,等各大软件玩儿烂的推荐算法。这些基本都是前端的把界面设计好,后端的把...

2020-02-21 11:58:19

强化学习 --baseline项目之gym中的Atari游戏的环境重写

gym中集成的atari游戏可用于DQN训练,但是操作还不够方便,于是baseline中专门对gym的环境重写,以更好地适应dqn的训练     从源码中可以看出,只需要重写两个函数 reset()和step() ,由于render()没有被重写,所以画面就没有被显示出来了1.NoopResetEnv()函数,功能:前30帧画面什么都不做,跳过。这有利于...

2020-02-19 16:32:37

强化学习 ---baseline项目之 TensorFlow的训练参数的存储和加载

       该项目中把tf的数据存储和读取抽取出两个函数,方便开发,思想和代码值得借迁一.存储def save_variables(save_path, variables=None, sess=None): import joblib sess = sess or get_session() ...

2020-02-19 11:41:30

强化学习 baselines项目源码部分解读

最近发现强化学习挺有意思,但是发现这样的博客挺少的,就随手记录下学习的过程!Google的DeepMind团队专门致力于研究人工智能,当然在强化学习领域也是世界领先水平,在2015年,DeepMind团队在nature杂志上发表了一片名为《Human-level control through deep reinforcement learning》的论文,第一个成功将强化学习和深度学习结合起来...

2020-02-19 11:03:22

快排,归并排序递归和非递归写法

前几天面试,问道快排非递归,我说我不会!!!!我太菜了,面试题都不会。比赛一直用sort,屡试不爽,结果排序算法的代码还有点生疏!递归版的:void qsort(int l,int r){ if(l>=r)return ; int L=l,R=r; int k=a[l]; while(l<r) { while(l<...

2019-11-20 16:25:45

算法实习生之快手面试

11.20投了好多简历,终于有公司搭理我了。快手的hr非常热情,通知了我面试后,快要面试的时候又提醒了我一次。很棒的体验。面试前很紧张,这是我第一次比较正式的面试,不知道面试官要问什么,趁着还有两天,把机器学习和深度学习的理论都复习了一遍。没想到啊,面试官那么仁慈,基本没问这方面的,全给我整算法题来了!(我之前看过牛客网的面试技巧,说的是自我介绍要往自己擅长的领域引领,果然还是有效)1,自我...

2019-11-20 11:40:49

边长为n的正方形最多可以放下多少个半径为r的圆?

今天看见数学院群里有人在讨论一道有意思的题目,题意好像是这样的:在一个1010的正方形里最多可以放多少个半径为1圆?有大佬在知乎里找到了1010的正方形能放多少个直径为1的圆,那么最优的放置方法如下:从图中可以看出,并不是每一排放10个,放10排是最优的。因为这样会造成中间的空隙很大。可以看出更优的放置方法是:交错着放,即(图中从下往上看):第一排放10个,第二排放9个,第三排放10个。第二排...

2019-11-07 19:51:13

对论文 Deep Learning with Limited Numerical Precision 的理解与结论的验证

文章思想:在深度学习中使用定点数来代替浮点数,本文引出了一种新的取舍方案:在下溢的时候随机取舍这种取舍在经过验证后发现效果比最邻近取舍好很多,相比之下,使用随机取舍用16位定点数就能达到和最近邻取舍32位定点数的效果。以下是两种取舍方法:符号意义:IL:定点数的整数位数FL:定点数的小数部分<IL,FL>:表示一个定点数WL:表示定点数的位数 ,即WL=IL+FLx:表...

2019-10-25 14:02:18

3层全连接神经网络

输入层是28x28=784个节点隐层500个结点输出层10个结点采用了L2正则化,指数衰减学习率,滑动平均优化后的结果正确率98.3%左右from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tfimport osimport warningswarnings.filterwa...

2019-10-05 20:59:37

LeNet-5 卷积神经网络

这是LeNet-5模型一个简版第一层输入层是28281的图片第二层卷积层采用32个55的fiter,边缘用全0填补,得到282832的输出第三层是池化层 采用22的fiter,步长也是【2,2】,得到输出141428的图片第四层卷积采用5564的fiter,边缘用全零填补,得到141464的输出第五层池化跟第二层一样,得到7764的输出第六层全连接层,将7764=3236个节点作为输入...

2019-10-05 19:25:51
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。