4 蜗牛爱上星星

尚未进行身份认证

Stay Hungry, Stay Foolish!

等级
TA的排名 6k+

贝叶斯公式的直观理解(先验概率/后验概率)

看了很多篇关于贝叶斯公式的博客,只有这一篇才让本人理解和明白。它通俗易懂,举例贴切,故转载于此,跟大家分享!前言以前在许学习贝叶斯方法的时候一直不得要领,什么先验概率,什么后验概率,完全是跟想象脱节的东西,今天在听喜马拉雅的音频的时候突然领悟到,贝叶斯老人家当时想到这么一种理论前提可能也是基于一种人的直觉.先验概率:是指根据以往经验和分析得到的概率.意思是说我们人有一个常识,比...

2019-08-20 18:34:41

Genetic Algorithm遗传算法,两个代码实现例子

通过了解遗传算法的概念,应用和代码实现,来充分理解和学习遗传算法。什么是遗传算法?可参考这篇文章:link应用:(1)工程设计(2)旅行商问题(3)机器人(4)著名的组合优化问题「背包问题」比如,你准备要去野游1个月,但是你只能背一个限重30公斤的背包。现在你有不同的必需物品,它们每一个都有自己的「生存点数」(具体在下表中已给出)。因此,你的目标是在有限的背包...

2019-06-03 21:46:43

使用GitLab或者Github简单实用地将数据导入Colab的方法

GoogleColab为我们提供了免费的GPU和TPU计算资源。对于暂时没有自己的本地GPU显卡资源深度学习科研人员而言真是个福利。这篇博客主要要解决的问题是:如何简单方便实用地将外部训练数据导入到GoogleColab中呢?其它博客讲到了使用GoogleDriver或者从本地电脑来导入数据,这些都是可以的,但是个人觉得比较复杂,而这里的方法我们只需要一行代码即可导入数据,而且很多训...

2019-05-25 10:42:01

为什么引入验证集来评估机器学习模型?只用训练集和测试集可以吗?

评估模型的重点是将数据划分为三个集合:训练集、验证集和测试集。在训练数据上训练模型,在验证数据上评估模型。一旦找到了最佳参数,就在测试数据上最后测试一次。你可能会问,为什么不是两个集合:一个训练集和一个测试集?在训练集上训练模型,然后在测试集上评估模型。这样简单得多!原因在于开发模型时总是需要调节模型配置,比如选择层数或每层大小[这叫作模型的超参数(hyperparameter),以便与模型参数...

2019-05-24 14:31:49

注意力模型(Attention Model)理解和实现

在我们视野中的物体只有少部分被我们关注到,我们的焦点在某一时刻只聚焦在某些物体上面,而不是视野中的全部物体,这是我们大脑的一个重要功能,能够使得我们有效过滤掉眼睛所获取的大量无用的视觉信息,提高我们的视觉识别能力;神经网络中的注意力模型借鉴了我们人脑的这一功能,让神经网络模型对输入数据的不同部位的关注点不一样,权重不一样。上面的图片出自论文Xuet.al.,2015.Showatte...

2019-05-21 20:50:00

以Attention Model为例谈谈两种研究创新模式

在研读AttentionModel相关文献过程中,我再次深切感受到了科研中的两种创新模式:模型创新与应用创新。若干年前,也就是在我年轻不懂事的花样年华里,具体而言,就是在科学院读博士的后期,这种感受就已经比较明显,所以曾经在2006年写过一篇博客:自然语言处理领域的两种创新观念。当时谈的相对务虚一些,而且由于年富力强,少不经事,更强调重大计算模型的创新,曾经对当时横扫NLP大多数领域的CRF...

2019-05-18 15:18:55

Zotero科研文献管理 - 将PDF文件同步到Google Driver中,不同电脑无缝使用

将Zotero中的附件文件比如PDF同步到Dropbox或者Onedrive或者GoogleDriver中,解决Zotero免费云空间限制,实现足够云空间附件文件存储,并实现不同电脑之间无缝迁移使用的解决方案。因为Zotero的Attachment的云空间只支持300MB免费的,如果把PDF同步到云空间中,容量不够。现在的解决方案是将Zotero的PDF附件单独存储到GoogleDriver...

2019-05-12 22:58:11

使用LSTM进行莎士比亚风格诗句生成

本文章跟本人前面两篇文章(文章1,文章1)的思路大体相同,都是使用序列化的数据集来训练RNN神经网络模型,然后自动生成相关的序列化。这篇文章使用莎士比亚诗词作为训练集,使用keras和tensorflow作为深度学习框架,训练具有自动生成莎士比亚风格诗句的神经网络模型。源码和数据集的下载地址1(需要从头开始训练):https://github.com/liangyihuai/deeplearn...

2019-05-02 23:08:09

使用RNN神经网络自动生成名字 (不使用深度学习框架,源码)

本文讲解在不使用深度学习框架的情况下,构建一个基本的RNN神经网络来进行名字自动生成。RNN模型请看下面的两张图片。本文主要讲解数据集以及输入模型的数据格式。数据集和可执行的源码下载地址:https://github.com/liangyihuai/deeplearning_liang/tree/master/src/rnn/dinosaur_name其中main.py文件存放调用训练模型的方...

2019-05-01 22:03:02

使用LSTM神经网络进行音乐合成(数据格式,模型构建,完整源码)

本文章将讲解如何借用机器学习框架Tensorflow和Keras,构建LSTM神经网络模型,通过学习音乐数据,来自动合成一段音乐。训练的原始音乐数据为:下载试听合成的音乐例子:下载试听完整代码(包含训练数据集):源码下载。其中主方法在MusicGenerator.py文件中。1.神经网络结构模型1.2.模型的输入数据每一次输入的是一个“音符”,这里为了便于理解,把一个音符抽象出...

2019-04-28 11:14:02

RNN和LSTM的正向/前向传播-图示公式和代码

本文先讲的基础版本的RNN,包含内部结构示意图,公式以及每一步的python代码实现。然后,拓展到LSTM的前向传播网络。结合图片+公式+可运行的代码,清晰充分明白RNN的前向传播网络的具体过程。完整的可执行的代码见文末。下面图片是RNN网络的整体示意图。每一个方框是“同一个节点处的不同时间点的表示“。也就是RNN-cell都是同一个,只是时间点不一样,所以展开画出来。所以,它们共用相同的”可训...

2019-04-25 22:13:59

Visual Studio 2017工程项目的几个重要文件解析

一般的VS项目目录结构为:解决方案(solution)名字xx.sln配置文件工程名字1xx.vcxproj配置文件xx.vcxproj.user配置文件xx.vcxproj.filters配置文件工程名字2xx.vcxproj配置文件xx.vcxproj.user配置文件xx.vcxproj.filters配置文件…在visual...

2019-03-23 17:07:53

最新(2019/3)CSDN博客Markdown编辑格式说明,包含效果图

@[TOC](这里写自定义目录标题)#欢迎使用Markdown编辑器你好!这是你第一次使用**Markdown编辑器**所展示的欢迎页。如果你想学习如何使用Markdown编辑器,可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。##新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功...

2019-03-23 16:06:32

拟合系数 / 决定系数 / R方 / R^2的理解

先附上公式,来自wiki,然后给出个人理解:上面公式中,红圈表示的是拟合系数计算公式,SSresSS_{res}SSres​表示真实值与预测值的差的平方之和,也就是预测值与真实值的误差。SStotSS_{tot}SStot​表示平方差,我们都知道平方差表示数值的离散程度,越大表示越离散。那么使用SSresSS_{res}SSres​/SStotSS_{tot}SStot​,表示SSresSS...

2019-03-14 20:51:18

MIT出品2017-2018深度学习最新进展汇总

本文内容整理自MIT教育视频,讲解的是近两年来深度学习一些方面最现今的进展,类似于综述。本文将列举出内容的纲要,视频连接资源和PPT资源下载链接。视频的纲要DeepLearning:StateoftheArt*(BreakthroughDevelopmentsin2017&2018)•BERTandNaturalLanguageProcessing...

2019-01-20 10:33:57

Stream Processing:滑动窗口的聚集(aggregation)操作的优化算法讲解

在实时计算的流处理中,因为数据是以流的形式不断流入实时处理,把流数据保留到内存中以待以后再处理不是一个明智的选择,一般情况下是采用窗口window来缓存最近的一部分流数据,针对这部分数据处理得到结果。有多中window,包括tumblewindow,sessionwindow,slidingwindow。而slidingwindow算是最常用的,它的属性有windowlength和sli...

2019-01-18 22:54:05

在windows下基于visual studio2017和CMake的安装Google glog

这里简单记录安装googleglog在windows下基于visualstudio2017的安装过程。下载https://github.com/google/glog使用cmake编译,编译结果存放在一个目录下,可命名为glog-built。在该目录下生成glob.sln文件使用visualstudio2017打开glob.sln文件选择build–>buil...

2019-01-13 15:13:21

Stream Processing:Apache Flink快照(snapshot)原理

本文将要讲解的是ApacheFlink的分布式流处理的轻量级异步的快照的原理。网上已经有几篇相关的博文,而本文的不同之处在于,它不是论文的纯粹翻译(论文地址),而是用自己的语言结合自己的理解对其原理的阐述。本文将同下面几个方面讲解:什么是快照?为什么需要快照?跟其他系统的快照相比,ApacheFlink快照的原理有哪些优点?ApacheFlink的快照原理是什么?1.什么是快...

2019-01-07 20:29:57

各领域机器学习数据集汇总

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】http://cvgl.stanford.edu/projects/uav_data/人脸素描数据集【CUHK】http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html自然语言推理(文本蕴含标记)数据集【NYU】https://www.nyu.edu/projects...

2019-01-06 13:20:41

Stream Processing: S4系统模型分析和关键源码读解

S4(SimpleScalableStreamSystem)流数据处理系统是Yahoo!公司提出的,在2011年的时候成为Apache软件基金下的一个孵化项目,可惜的是在2014年的时候该孵化项目“退休”了,具体原因未知!!从这里可以了解它当前的状态信息:link.阅读了所发表的论文S4:DistributedStreamComputingPlatform之后,发现该系统模型有其独...

2018-12-17 09:48:24

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。