4 王嘉宁

学生身份

研究方向:JavaWeb开发、微信二次开发、机器学习、深度学习、知识图谱、自然语言处理、计算机视觉、强化学习

添加认证
等级
TA的排名 3w+

[转载收藏]随机采样方法整理与讲解(MCMC、Gibbs Sampling等)

本文仅为转载收藏,供个人学习。转载地址:https://www.cnblogs.com/xbinworld/p/4266146.html本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密

2020-05-12 20:08:43

强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS

强化学习(八):Dyna架构与蒙特卡洛树搜索MCTS  在基于表格型强化学习方法中,比较常见的方法有动态规划法、蒙特卡洛法,时序差分法,多步引导法等。其中动态规划法是一种基于模型的方法(Model-based),因为它的前提是必须要知道所有状态和动作以及奖励的分布;后面的几种方法则是基于采样的方法,试图让智能体通过与环境交互来获得经验,从经验中推出相关的策略。因此本节对相关内容进行一个简单的总结...

2020-04-19 15:32:50

强化学习(七):n步自举法(多步引导法)

强化学习(七):n步自举法(多步引导法)  在之前,我们知道求解有限马尔可夫决策过程可以通过蒙特卡洛和时序差分来通过与环境多次交互从经验中学习,然而,蒙特卡洛方法在一些不满足分幕式任务或连续型任务上无法获得最终的收益,因此我们引入时序差分方法。时序差分的思想就是将下一时刻的状态价值或下一时刻的状态动作价值作为估计值,用于估计当前状态价值或动作价值。时序差分是一种结合采样和自举的方法,那么一种介于...

2020-04-13 17:21:20

论文解读:Reinforcement Learning for Relation Classification from Noisy Data

论文解读:Reinforcement Learning for Relation Classification from Noisy Data  本文是一篇以强化学习来解决远程监督关系抽取中噪声的问题。强化学习作为一个比较新的机器学习,能够很好的处理一些半监督类问题,强化学习是一种从经验中学习的方法,通过定义策略、状态、动作以及收益来训练智能体与环境的交互,在游戏博弈等场景中很受欢迎。本文则将其...

2020-04-06 16:41:44

强化学习(六):时序差分方法

强化学习(六):时序差分方法  时序差分(TD)方法结合了动态规划与蒙特卡洛的思想,其可以像蒙特卡洛方法一样直接从智能体与环境互动的经验中学习,而不需要知道环境的模型,其又可以像动态规划一样无须等待交互的结果,可以边交互边学习。总的来说,时序差分是基于已得到的其他状态的估计值来更新当前状态的价值函数。如果没有学习动态规划部分,可以浏览博文强化学习(四):基于表格型动态规划算法的强化学习,如果没有...

2020-04-06 10:07:32

强化学习(五):蒙特卡洛采样方法

强化学习(五):蒙特卡洛采样方法  在强化学习(四)中,我们学习了如何使用动态规划法求解强化学习问题,我们还学习了策略评估和策略改进,以及广义策略迭代(GPI),事实上,动态规划能够很好地收敛到最优值,但是否动态规划就是最好的呢?显然不是。回顾一下动态规划的状态价值函数的贝尔曼方程:vk+1(s)=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γvk(s′)]v_{k+1}(s)=\...

2020-03-31 23:01:54

Pytorch使用LSTM实现Movie Review数据集情感分析

Pytorch使用LSTM实现Movie Review数据集情感分析  入门Pytorch一周时间,周六试着手写情感分类代码。学过Tensorflow的都知道,其需先生成计算图,还得通过placeholder喂入数据,十分的麻烦,也不容易调试,而pytorch真心是简单上手,最开心的就是Tensorflow不能随时打印中间结果,而Pytorch完美实现了~~啰嗦两句,很建议大家先学习tensor...

2020-03-29 01:00:21

论文解读:Denoising Distant Supervision for Relation Extraction via Instance-Level Adversarial Training

论文解读:Denoising Distant Supervision for Relation Extraction via Instance-Level Adversarial Training  本文是一篇以生成对抗网络为出发点的远程监督关系抽取文章,其使用GAN来完成噪声数据的过滤,其相比普通的multi-instance能够更有效的过滤出噪声,避免multi-instance的at-le...

2020-03-26 12:29:02

生成对抗网络(GAN)之 Basic Theory 学习笔记

生成对抗网络(GAN)之 Basic Theory 学习笔记  前言:最近学习了李宏毅生成对抗网络篇(2018年)的视频(视频地址:李宏毅对抗生成网络(GAN)国语教程(2018)),因为截止今天(3.23),2020版还未讲到生成对抗网络,因此选择18年。本次学习笔记主要为Basic Theory部分,主要讲解GAN的数学原理。  GAN又称生成对抗网络,是由Ian Goodfellow等人...

2020-03-23 16:55:00

强化学习(四):基于表格型动态规划算法的强化学习

强化学习(四):基于表格型动态规划算法的强化学习夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn  在有限马尔可夫决策过程中,智能体在某个状态进行决策的过程中,始终满足价值函数和动作函数的贝尔曼方程,事实上,这就是一种动态规划的思想。动态规划即是一种递推表达式,例如对于状态价值的贝尔曼方程,其衡量的是当前状态与所有的下一个可能的状态价值的...

2020-03-23 10:27:45

pytorch小试

pytorch小试  之前一直使用Tensorflow写程序,今天初学pytorch来实现一个简单的回归模型。回归模型即给定一组样本特征 xxx (相当于超空间中的点),训练一个简单的线性函数来拟合它们 y=wx+by=wx+by=wx+b 。import torchfrom torch.autograd import Variableimport torch.nn as nnimpor...

2020-03-22 09:46:30

感知机模型

感知机模型本内容为《统计学习方法》学习笔记,会不定时更新  感知机模型是一个非常简单的线性机器学习分类器,其定义为:不过其有一个非常苛刻的前提——输入样本需要满足线性可分,亦即非线性可分的样本无法实现感知机分类任务。  给定一组样本 T={(x1,y1),...,(xN,yN)}T=\{(x_1,y_1),...,(x_N,y_N)\}T={(x1​,y1​),...,(xN​,yN​...

2020-03-18 18:59:41

强化学习(三):有限马尔可夫决策与贝尔曼方程

强化学习(三):有限马尔可夫决策与贝尔曼方程夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn1、有限马尔可夫决策过程  有限马尔可夫决策过程(MDP)是强化学习的主要思想,也是后续多个解决强化学习目标的基本假设。  我们先来回顾一下强化学习的学习过程。强化学习的主体是智能体,与之相互交互的事物称为环境。当ttt时刻智能体所处某一个状...

2020-03-16 11:41:27

论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction

论文解读:Combining Distant and Direct Supervision for Neural Relation Extraction夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn  远程监督关系抽取一直存在一个问题就是噪声,现如今有诸多工作来解决噪声问题,本文创新点在于结合了远程监督和普通监督学习来实现降噪。一、简...

2020-03-15 17:22:18

论文解读:ARNOR: Attention Regularization based Noise Reduction for Distant Supervision Relation Class...

论文解读:ARNOR: Attention Regularization based Noise Reduction for Distant Supervision Relation Classification  关系抽取是自然语言处理任务中比较重要的任务,其是知识图谱构建的子任务。现如今常用的方法是基于监督学习方法,但由于人工标注语料太少,且成本较高,不利于大规模图谱的构建,因此远程监督学习...

2020-03-14 11:46:28

强化学习(二):贪心策略(ε-greedy & UCB)

强化学习(二):贪心策略(ε-greedy & UCB)夏栀的博客——王嘉宁的个人网站 正式上线,欢迎访问和关注:http://www.wjn1996.cn  强化学习是当前人工智能比较火爆的研究内容,作为机器学习的一大分支,强化学习主要目标是让智能体学习如何在给定的一个环境状态下做出合适的决策。强化学习相关概念请点击:强化学习(一):概述  强化学习任务中有两个非常重要的概念—...

2020-03-10 12:20:31

基于深度学习的命名实体识别与关系抽取

基于深度学习的命名实体识别与关系抽取摘要:构建知识图谱包含四个主要的步骤:数据获取、知识抽取、知识融合和知识加工。其中最主要的步骤是知识抽取。知识抽取包括三个要素:命名实体识别(NER)、实体关系抽取(RE)和属性抽取。其中命名实体识别(NER)和实体关系抽取(RE)是自然语言处理(NLP)任务中非常重要的部分。  本文将以深度学习的角度,对命名实体识别和关系抽取进行分析,在阅读本文之前,读者...

2019-07-18 22:12:50

【夏栀的博客】3月9日零点正式上线

夏栀的博客——王嘉宁的个人网站 正式上线感谢各位博友的支持与关注,个人网站一期工程于今日(3月9日零点)正式发布上线网站名称:夏栀的博客——王嘉宁的个人网站网站地址:http://www.wjn1996.cn研究领域:JavaWeb软件开发、数据库、机器学习、深度学习、自然语言处理、知识图谱、智慧教育、强化学习点击进入:http://www.wjn1996.cn项目简介  项目自2...

2020-03-08 22:46:57

论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Info...

论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information  KB-QA任务的第二作,其是对上一篇(Question Answering over Freebase with Multi-Column Convolutional Neural Ne...

2020-03-08 11:30:47

论文解读:Question Answering over Freebase with Multi-Column Convolutional Neural Networks

论文解读:Question Answering over Freebase with Multi-Column Convolutional Neural Networks  KB-QA是一种问答系统任务,其是基于知识库进行的问答。给定一个知识库,其包含若干个实体和边,每两个实体和相连的边为一个三元组。实体分为客观实体和属性,客观实体就是客观存在的一般实体,例如人名地名机构名,属性则是一种特殊的实...

2020-03-02 23:04:21

查看更多

勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。
  • 分享精英
    分享精英
    成功上传11个资源即可获取