8 dawningblue

尚未进行身份认证

暂无相关简介

等级
TA的排名 11w+

Optimization 课程笔记翻译

TableofContents:IntroductionVisualizingthelossfunctionOptimizationStrategy#1:RandomSearchStrategy#2:RandomLocalSearchStrategy#3:FollowingthegradientComputingthegradientNumer...

2019-09-12 17:25:23

Nesterov动量更新方法理解要点

为了解释Nesterov动量更新的原理,我们从速度更新表达式开始说起。v=mu*v-learning_rate*dx(为了说明下面的推论还是需要一些前提的,为了不影响整体感,把这些放到本小节的后面)其实这个式子背后提现了这样一个原理:下一时刻的速度应该由「当前的速度」以及「质点因受力产生的速度变化」两部分共同构成。式子的前一部分(mu*v)代表质点当前的速度状...

2019-04-24 10:24:31

关于动量更新的概括

一下是看CS231n后自己总结的笔记动量更新是另一种在深度学习过程中经常能获得不错收敛率的学习方法。这个方法的灵盖来自物理学(我就意译了),想象优化空间如同一个延绵起伏不断延伸的丘陵地带,优化过程类似于把一个小球轻轻地放在这个地带任何一个位置,让它自然运动直到停止,一般来说,当它停下来的时候这个小球肯定是在某一个最低点,不一定是全局最低点,但是一定是局部的最低点。我们把损失函数类比这个小球的...

2019-04-24 10:22:04

两种反向传播理解思路的统一

在我学习反向传播算法的时候,我接触了两种不同类型的阐述方式,一种是MichaelNielsen和AndrewNg的(以下简称N2),他们的推导过程几乎一样。另一种是CS231n中基于链式法则的。这两个虽然我都明白,但是总觉得好像差别有点大,或者说既然他们说的是一个东西,那么肯定能在某一种层次上它们说的能统一在一起。为了寻找它们的统一,下面是我的一些思考。先从“反向传播”这个名字说起“反向传...

2019-04-04 15:03:27

什么是“扩散概率”(diffuse probability)

今天在看CS231n的时候看到了一个名词“diffuseprobability”,扩散概率,Google了一下,在英文里直接定位到先验分布,用中文“扩散概率”查,有少数文献提到“扩散先验”其实“diffuseprobability”就应该是“diffuseprior”,diffuseprior也称之为Uninformativepriors(非信息先验),是先验概率的一种形式,...

2019-02-14 12:15:34

现在机器翻译效果已经那么牛逼了!?

最近想看看《园丁和木匠》这本书,之前在kindle上买了电子版在读,今天我想在网上看看有没有人写一些笔记,做一些解读,虽然万维钢也对这本书做过介绍,但是我觉得每个人的视角都是不一样的,结果发现已经有PDF版本在流传了,恰好前两天升级了一下有道词典,本来只是想用这个做生词本(我平时用欧路词典,但是那个不花钱就没法同步),我刚啃完一段,不经意的一扫,结果发现它把整段都翻译,乍眼一看好像翻译的质量不错...

2019-02-12 19:11:10

卷积和池化(CS231n)

用不是特别严谨但是比较通俗的语言描述整个过程卷积神经网络是从卷积层开始介绍的,而卷积层的介绍是从全连接层开始介绍的全连接层的处理方式是一次性处理一张图片的全部信息,处理的方式是将图片信息和权重矩阵做乘积,得到一个评分结果。在细节层面上:我们会把一张图的全部信息拉成一个一维的向量,一张图的全部信息原始的状态像一个长方体方体(32X32X3)权重矩阵和这个图片信息的矩阵乘法,本质上来...

2018-09-29 20:22:59

反向传播(CS231n版)

核心概念:计算图的概念反向传播利用了链式求导但是本质不完全是链式法则理解概要与其说反向传播算法的本质是链式求导法则,到不如说它的本质是分治的思想在链式求导法则中的应用。因为当一个函数很复杂的时候,即使是我们会链式求导法则,求这个函数对某一个变量的偏导数(的解析解)依然是一个非常困难的事情。而反向传播则是把一个大问题拆成一个一个各自独立互不影响的小的问题,分别求出这些小的问题的解,再把这...

2018-09-29 19:36:21

深度学习基础知识框架

 作为刚入门的新手来说,CS231n提供了一个特别好的深度学习框架,本人也在学习这门课程,我以2018年课程计划为蓝本,把知识拆成小的部分,打算有时间一个一个的弄懂  课目 主题 知识点 备注 Lecture1  课程概述 courseintroduction 计算机视觉概述 computervisionoverview ...

2018-09-29 19:07:30

《推荐系统调研报告即综述》粗略笔记

1.为什么需要推荐系统我觉得商人嘛,就是要不断让客户买自己的东西,TA喜欢什么我就给TA什么。包括现在网站也是,都是要尽量的留住用户,占用这个用户的时间,比如今日头条或者内涵段子之类的其实这个思路自古有之,只是那个时候就是商人自己完成这个事情,现在大规模的交易在线上完成,自然我们就需要把这种功能利用机器的方式来实现,用机器的方式来实现推荐系统的功能就是2.都什么地方需要推荐...

2018-04-18 11:39:09

Coursra-MachineLearning 第四次作业总结

1.神经网络训练算法(coursera版)整体描述1.1不同点1——代价函数的形式不同参考下面的2.3.11.2不同点2——最后一层的误差表示方式不同这里为了简化输出层的误差就用样本的值和输出值相减得到,其实比较严谨的计算方法是样本值和输出值相减后再乘以输出层的偏导数。参考我之前写的两篇文章中的公式推导。反向传播算法的理解(Nielsen版)反向传播算法(UF...

2018-04-12 18:07:52

反向传播算法(UFLDL版)

1.UFDL中的一些术语nln_l表示输出层的层数(数量),用L2L_2表示第二层,L3L_3表示第三层,LnlL_{n_l}表示输出层。无论是Nielsen版还是,coursera版都是用“L”表示神经网络的层数(总层数)小写的ll经常来表示层数,大写的LL加角标经常表示第几层,SlS_l表示第l层神经元的个数。b(l)ib^{(l)}_i表示第l+1l+1层的第ii个神经元上的...

2018-01-10 21:02:19

“分类”这种解决问题的思想在机器学习领域中有多重要

大多数与“智能”有点关系的问题,都可以归结为一个在多维空间进行模式分类的问题。而人工神经网络所擅长的正是模式分类。我写这篇文章主要就是受到这句话的启发,我现在才体会到机器学习的两个基本问题“回归(预测)与“分类”这两个基本问题的价值。原来看似很复杂的问题最终都可以化解为这两个基本问题的组合。下面我就从简单的例子开始谈谈我对于“分类”这概念的理解。1一个特征的情况其实我们在日常中就在自觉或者不自觉

2017-12-20 11:49:58

反向传播算法的理解(Nielsen版)

在学习standford大学机器学习在coursera上的公开课中,对于其中讲授的神经网络的反向传播算法不是很清楚,经过网上查找资料,觉得MichaelNielsen的「NeuralNetworksandDeepLearning」中的解释特别清楚,于是这份材料为主经过学习,现在说一下我的理解。记忆BP算法的核心要素Nielsen版的反向传播算法大概有这么三个要素*两个假设

2017-11-22 16:19:08

数学与国家实力

数学既是一种文化、一种“思想的体操”,更是现代理性文化的核心马克思说:“一门科学只有当它达到了能够成功地运用数学时,才算真正发展了。”在前几次科技革命中,数学大都起到先导和支柱作用。我们不能要求决策者本人一定要懂得很多数学,但至少要经常想想工作中有没有数学问题需要请数学家来咨询。因为数学是科技创新的一种资源,是一种普遍适用的并赋予人以能力的技术。一、世界强国与数学强国数学实力往往影响着国家实

2017-10-13 17:31:22

Coursra-MachineLearning 第二次作业总结

LogisticRegression1.1Visualizingthedata我们的目标是根据ex2data1里面的数据,把被接受入学的数据和被拒绝入学的数据都标注在一张坐标图上。为了表示区分,接受入学的样本在图上用“黑色小十字”来表示,而拒绝入学的样本在图上用“黄色小圆点”来表示。如果要做这个事情,第一步就是要把混杂在一起的数据分成两堆。y=1的为一堆,y=0的为一堆。难点1f

2017-09-30 16:27:30

Coursra-MachineLearning 第一次作业总结

语法上与Python有类似的地方变量的声明没有独立,变量的声明和使用是同时的类似动态语言,所见即所得,命令行式以及文件式,这点是不是和R有点相似脚本之间关系,是不是也有不同的命名空间,这次的作业其实是一个大脚本串起来的这次必完成的作业是一元线性回归的作业,ex1虽然是一个大脚本,但是其实它的目的也很单一就是把一组数据利用一元线性回归的方式找到模型并且把其中的过程图画出来。目标完成其实是分成

2017-09-07 19:53:03

数学之美 概念关系图

最近拜读了吴军老师的数学之美,对其中涉及到的概念,原理进行了一些整理,根据我自己的理解画出来一个概念关系图。从横向看,我把所有知识的阐述分成:目标,原理1(直接原理),原理2(底层原理),工程实现,推广应用这五个部分。纵向方面是每个章节涉及到的主题。但是我并非完全按照章节的顺序来整理只是根据自己的理解,把近似的内容聚类。画出的效果图如下:

2017-09-01 10:54:58

利用梯度下降的方式求线性回归中参数的一些经验总结

这个是coursera里的machinelearning课程的作业,在用matlab实现的过程中我总结了一些经验1.梯度下降也分成两个部分,一个是costfunction的实现,一个是θ\theta的实现2.这里要尽量采用向量的计算方法,注意向量的计算方法不是矩阵的计算方法,总结一下向量的计算技巧,什么情况下可以一气计算,什么情况下不行,只能循环计算。微批量处理matlab的优势

2017-08-30 17:12:25

什么叫做「数据驱动方法」

在《智能时代》一书中提到了「数据驱动的方法」,我来谈一下我的理解。人类提升对世界的认识能力的方法就是从现实世界中发现规律,从认识论的角度来说就是从感性认识到理性认识。那么规律如何描述呢,从自然科学的角度来看,人类描述自然规律的方法是用数学公式的方法(因为用数学公式来说比较精确,在人类未掌握很丰富的数学工具的时候,也可以用语言来描述规律,但是之后规律越来越多的采用数学公式),将规律用一个数学公式(

2017-07-14 16:10:40

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。