6 mmc2015

尚未进行身份认证

我要认证

北大信科学院,关注深度强化学习。http://net.pku.edu.cn/~maohangyu/

等级
TA的排名 1k+

很认真的中了两篇AAAI2020的文章:NCC-MARL: Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning.

第一篇:NCC-MARL: Neighborhood Cognition Consistent Multi-Agent Reinforcement Learning.NCC-MARL is a general RL framework to handlelarge-scalemulti-agent cooperative problems. We notice that agents ...

2019-11-16 19:23:49

Leetcode刷题指南

参考:https://blog.csdn.net/qq_39521554/article/details/79160815 二、刷题方法方法一:按照题目出现频率刷题顺序参考文章最后的部分方法二:标签法按照网站给大家排列的不同tags,起到模块化的复习和学习作用。举个例子:比如复习链表的内容,就选Linked List这部分的23个题目。刷完之后可以再总结一下常用的方法和数据结...

2019-02-13 19:21:48

很认真的中了一篇AAMAS2019的文章:Modelling the Dynamic Joint Policy of Teammates with Attention Multi-agent DDPG

【有中相同会议的小伙伴记得联系我哦,可以一起商量着把会议相关的事情做好】这篇文章是利用深度强化学习(Deep Reinforcement Learning)做多智能体合作(multi-agent cooperation)。主要贡献点在于使用了一个attention机制 in a principled way,principle在,这个attention是基于agent modelling方...

2019-01-23 15:46:03

dropout为什么有用。Dropout在RNN中的应用综述。

 想起来前两天小师弟问我问题,为什么dropout是有用的,看起来像是一个有bug的操作。 这里谈下自己的理解,不一定正确:1)dropout的经典解读之一是network的ensemble,每次drop不同的weights,从而形成不同的sub-network,最后ensemble所有的sub-network2)那么为什么sub-network可行呢?这个很少有人提到。我觉得...

2018-09-25 20:40:16

Cross-Entropy Method (CEM, 交叉熵方法) 与强化学习

转自:https://the0demiurge.blogspot.com/2017/08/cross-entropy-method-cem.html 前言之前阅读Deep Reinforcement Learning: Pong from Pixels的时候,作者在文中最后提到“One should always try a BB gun before reaching for the...

2018-08-17 21:25:24

TensorFlow中实用的知识:在静态图中写条件判断语句

https://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247493703&idx=1&sn=7944d78c692d5f7590ba052bbf75a235&chksm=fc860954cbf18042be63c9734fd991a2dfbd250b7e803e043af5232829fb83a6ca3f80a...

2018-07-28 08:31:45

CS224N(Natural Language Processing with Deep Learning)总结:模型、任务、作业、作业中涉及到的特殊代码

 模型:word2vec(skip-gram、CBOW)、GloVe、DNN/BP/Tips for training、RNN/GRU/LSTM、Attention、CNN、TreeRNN应用:Neural Machine Translation、Dependency Parsing、Coreference Resolution作业:skip-gram、window-based s...

2018-07-16 20:58:33

PAKDD2018小结

会议整体概况610+投稿量long paper:57,9.63%short paper:107,18.07%【placeholder for pictures】投稿量最多的是applications录稿量最多的是mining graph and network data【placeholder for pictures】录稿量最多的三个国家:美中澳参会人数最多的三个国家:澳中美...

2018-06-14 08:37:17

The gossip problem【多智能体通信达成全局一致性需要的最少通信次数】

https://www.sciencedirect.com/science/article/pii/0012365X73901210https://arxiv.org/abs/1511.00867

2018-04-11 13:31:42

如何解释policy gradient中的baseline具有降低variance的作用

在增强学习中有一大类方法叫policy gradient,最典型的是REINFORCE。在这类方法中,目标函数J(w)(通常是the expectation of long term reward)对policy参数w的gradient为:▽J(w) == E[ ▽logπ(a|s) * return ]== E[ ▽logπ(a|s) * (return-baseline)]~=计算N个samp...

2018-04-09 23:24:22

如果环境存在random,那么问题还能建模成MDP吗?

李宏毅老师的课程:https://www.youtube.com/watch?v=W8XF3ME8G2I老师说,对于同一个observation/state(atari game的画面),也不一定会采取相同的动作,因为有些actor是stochastic的,选action有一定随机性,这一点好理解。。。老师还说,即便actor采取同一个action,得到的reward和next state也不一定...

2018-03-16 08:16:32

梯度截断的tensorflow实现

gradients = optimizer.compute_gradients(loss, var_list)capped_gradients = [(tf.clip_by_value(grad, -5., 5.), var) for grad, var in gradients if grad is not None]train_op = optimizer.apply_gradients(...

2018-03-02 09:18:09

水了一篇PAKDD2018的文章:Topic-specific Retweet Count Ranking for Weibo

看题目就知道做什么工作:Topic-specific Retweet Count Ranking for Weibo摘要:In this paper, we study \emph{topic-specific} retweet count ranking problem in Weibo. Two challenges make this task nontrivial. Firstly, tr...

2018-02-24 08:26:36

使用CNN kernel对图像进行【锐化、模糊、浮雕等】处理

发现一门将tensorflow的不错的课程。https://web.stanford.edu/class/cs20si/2017/lectures/slides_07.pdf之前做过一个相机的APP,当时做图片美化,些非常多的代码效果不一定好。下面这个图提醒我们,其实直接使用CNN特定的kernel在愿图片上进行一次卷积就可以完成图片的转换了,而且计算量应该比较少吧。

2018-01-22 16:47:25

python3练习

参考:http://www.runoob.com/python3/python3-tutorial.html输入:>>> a=input("input something:")input something:hello world>>> a'hello world'输出:加括号、不换行>>> print("Hello, Python!")Hello,

2018-01-15 21:25:46

2017年AI关键技术盘点:AlphaGo/GAN/Capsule/基于DL的CTR预估/CV/NLP

写的挺好,转一下。2017年AI技术盘点:关键进展与趋势原创 2018-01-04 张俊林 人工智能头条作者 | 张俊林责编 | 何永灿人工智能最近三年发展如火如荼,学术界、工业界、投资界各方一起发力,硬件、算法与数据共同发展,不仅仅是大型互联网公司,包括大量创业公司以及传统行业的公司都开始涉足人工智能。2017年人工智能行业

2018-01-05 09:52:31

通过【端口转发】在服务器上使用TensorBoard

如果是一次转发:https://stackoverflow.com/questions/37987839/how-can-i-run-tensorboard-on-a-remote-serverdown voteHere is what I do to avoid the issues of making the remote server accept your local external I...

2017-11-26 20:56:43

MARL(multi-agent reinforcement learning)的一些边缘文章(imitation、transfer、security等)

参考:https://github.com/LantaoYu/MARL-Papers7.4.2、Inverse MARL[1] Cooperative inverse reinforcement learning by Hadfield-Menell D,Russell S J, Abbeel P, et al. NIPS, 2016.[2] Comparison of Mul

2017-11-07 20:40:22

SELU激活函数,scaled exponential linear units

SELU、ReLU、leaky ReLU对比:https://github.com/shaohua0116/Activation-Visualization-Histogram关于SELU激活函数的详细介绍,从这个地址转来的:http://blog.csdn.net/liyuan123zhouhui/article/details/73702271

2017-09-25 17:04:54

Jacobian矩阵和Hessian矩阵

关于Jacobian矩阵和Hessian矩阵的介绍,挺简单明了的:http://jacoxu.com/jacobian%E7%9F%A9%E9%98%B5%E5%92%8Chessian%E7%9F%A9%E9%98%B5/需要注意一点,楼主你好,我和楼上一样不太懂你写的牛顿法求最优化那部分的思路。按我的理解,原方程泰勒二阶展开 f(x+Δx)=f(x)+f′(x)*Δx+1/

2017-09-25 14:46:37

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。