8 Dark_Scope

尚未进行身份认证

我要认证

杭州搬砖中。。。

等级
TA的排名 4k+

AI浪潮里的数据

数据、计算力和算法,是这次AI浪潮的顶梁柱,这个说法从12年至今被无数大佬背书过,平时我们学习的东西主要着眼于算法,常常忽略其他两项。计算力是我们训练和运行算法的基础平台,从12年开始GPU被广泛地用来进行模型的训练,普通家用的GTX 1080Ti显卡就有相当不错的计算效率,也有大量的研究工作被投入到这个方向,比如很多手机里都有的神经网络计算专用芯片等等;另一个顶梁柱「数据」,其实对...

2020-04-17 18:45:02

三十天博客计划-《算法能解决什么问题?》

一.问题>数据>算法 最近几年人工智能行业如火如荼,最近今年也能看到越来越多的落地应用:人脸识别、AI拍照、自动驾驶、智能音箱等等等等。所有的这些应用常常都是一个复杂的工程,其中可能会包含数个甚至数十上百个算法模型,我们可以抽丝剥茧,从最基本的算法功能单元总结出一些算法解决问题的范式,这对我们寻找新的算法应用场景有很大的价值。 一般做算法的人会...

2020-04-10 22:04:37

三十天博客计划之《引言》

大学的时候开始维护一个博客:DarkScope从这里开始,断断续续几十篇文章,也累积了一些访问量。不过最近的一篇已经是17年12月了,没有继续下去的原因很多,但归根结底是没有找到一个可持续发展的方式去提高博客的内容质量:不想一直写粗糙的内容,但图文并茂、简洁清晰的博客又需要大量精力来准备;单纯的技术内容也很难一直保持热情;全部投入都押在周末占用了做其他事情的时间。 ...

2020-04-04 17:55:02

采样方法(二)MCMC相关算法介绍及代码实现

0.引子书接前文,在采样方法(一)中我们讲到了拒绝采样、重要性采样一系列的蒙特卡洛采样方法,但这些方法在高维空间时都会遇到一些问题,因为很难找到非常合适的可采样Q分布,同时保证采样效率以及精准度。 本文将会介绍采样方法中最重要的一族算法,MCMC(Markov Chain Monte Carlo),在之前我们的蒙特卡洛模拟都是按照如下公式进行的:

2017-12-30 15:32:14

NE(Network Embedding)论文小览

NE(Network Embedding)论文小览自从word2vec横空出世,似乎一切东西都在被embedding,今天我们要关注的这个领域是Network Embedding,也就是基于一个Graph,将节点或者边投影到低维向量空间中,再用于后续的机器学习或者数据挖掘任务,对于复杂网络来说这是比较新的尝试,而且取得了一些效果。 本文大概梳理了最近几年流行的一些方法和论文,paper主要是来自t

2017-07-04 07:47:23

采样方法(一)

本篇文章先主要介绍一下经典的采样方法如Inverse Sampling、Rejective Sampling以及Importance Sampling和它在NLP上的应用,后面还会有一篇来尝试介绍MCMC这一组狂炫酷拽的算法。才疏学浅,行文若有误望指正。

2017-04-30 08:46:18

序列的算法(一·b)隐马尔可夫模型

序言….. 本系列对算法的讲解都会从两篇部分予以呈现:a. 湿货部分要浅入浅出,形象生动,读得明白。 b. 干货部分要一文以蔽之,公式罗列,看得通透;下面是(一)的 b 部分内容UnigramUnigram模型认为序列中的每一项都是独立发生的,所以很自然,假设我们有N个序列,每个序列长度是MnM_n,那么整个序列的联合概率分布就是: P(X)=∏iN∏jMip(Xji) P(X) =

2017-03-19 12:42:53

自动求导的二三事

知乎上看到一个回答,说是自己学习神经网络的时候都是自己对公式求导,现在常见的DL库都可以自动求导了。这个想必实现过神经网络的同学都有体会,因为神经网络的back-propagation算法本质上就是求导链式法则的堆叠,所以学习这部分的时候就是推来推去,推导对了,那算法你也就掌握了。粗粗一想,只要能把所有操作用有向图构建出来,通过递归去实现自动求导似乎很简单,一时兴起写了一些代码,整理成博客记录一下。

2017-03-17 16:33:32

序列的算法(一·a)马尔可夫模型

序列的世界(一.a)序言机器学习领域往往按照算法的应用分为各大领域,如NLP、CV、MT等等,一些算法往往也被打上各自应用的标签,但其实对于算法本身而言,只要你能按照他指定的格式输入数据,就能够产出相应的结果,并不是限定到某个领域,只要你能对问题抽象成算法需要的input,就可以在这个问题上发挥算法的价值。在这里我们会关注一系列输入是「序列」的算法,这里的序列包括但不限于「文本序列」、「时间序列」、

2017-03-11 14:50:29

维度打击,机器学习中的降维算法:ISOMAP & MDS

降维是机器学习中很有意思的一部分,很多时候它是无监督的,能够更好地刻画数据,对模型效果提升也有帮助,同时在数据可视化中也有着举足轻重的作用。一说到降维,大家第一反应总是PCA,基本上每一本讲机器学习的书都会提到PCA,而除此之外其实还有很多很有意思的降维算法,其中就包括isomap,以及isomap中用到的MDS。ISOMAP是‘流形学习’中的一个经典算法,流形学习贡献了很多降维算法,其中一些与很多

2016-11-19 13:15:28

从PCA和SVD的关系拾遗

从PCA和SVD的关系拾遗最近突然看到一个问题,PCA和SVD有什么关系?隐约记得自己照猫画虎实现的时候PCA的时候明明用到了SVD啊,但SVD(奇异值分解)和PCA的(特征值分解)貌似差得相当远,由此钻下去搜集了一些资料,把我的一些收获总结一下,以免以后再忘记。PCA的简单推导PCA有两种通俗易懂的解释,1)是最大化投影后数据的方差(让数据更分散);2)是最小化投影造成的损失。这两个思路最后都能推

2016-11-13 19:38:27

时间复杂度最小的最短路径算法?由这个想到的

最近看书发现了一段很有意思的东西,好像是谷歌的工程师发表在谷歌黑板报里的:        有一次,我笨得忘记了该如何在一个复杂的有向图中找出两点之间的最短路径。身边的一位工程师很郑重地告诉我说:“你知道吗?解决这个问题有两种方法,聪明人的方法和笨人的方法。聪明人的方法是:照着算法教科书的讲解,实现那个时间复杂度相当大的名叫嘀嘀哒嘀哒的最短路径算法。笨人的方法时间复杂度最低:找一堆线头来,按照有向

2015-12-03 20:36:23

RNN以及LSTM的介绍和公式梳理

前言好久没用正儿八经地写博客了,csdn居然也有了markdown的编辑器了,最近花了不少时间看RNN以及LSTM的论文,在组内『夜校』分享过了,再在这里总结一下发出来吧,按照我讲解的思路,理解RNN以及LSTM的算法流程并推导一遍应该是没有问题的。RNN最近做出了很多非常漂亮的成果,比如Alex Graves的手写文字生成、名声大振的『根据图片生成描述文字』、输出类似训练语料的文字等应用,都让人感

2015-07-25 16:32:32

地理位置信息数据可视化(DVisualMap)

地图方面数据的可视化因为在实习的时候接触到了一些GPS的数据,所以把这些数据投影出来看就是分析数据很重要的一部分了,当时用高德地图的接口就写了一个投射点的地图工具,但是非常卡,最多1000个点就动不了了,这次借机就写个地图工具,试了一下加入10000个点还能基本保持流畅,当然这个工具也不过是简单地在Leaflet上进行的封装,包装了一些易用的接口出来,如果你有更多的需求,强烈建议使用Leaflet。当然如果你想在在html上绘制简单图表,并且没有其它特殊要求的话,现在也是可以试用一下的,本

2015-03-19 09:20:15

基于javascript的简单数据可视化:DVisual

基于html5和javascript的简单数据图表绘制,很方便地就可以得到精美的图像。最近看了不少数据可视化的书,所以也就顺理成章想做点东西,同时准备把『数据可视化套件开发』这个作为毕业设计搞一搞,花了一两周写了一个DVisual出来,目前倒是只支持一些基本的图表绘制,后面可能会加入一些比较炫酷的图标,以及鼠标操作等功能吧。当然如果你想在在html上绘制简单图表,并且没有其它特殊要求的话,现在也是可以试用一下的,本文就简单用中文介绍一些使用方法把,感觉我这个用起来还是蛮方便的

2015-02-01 11:11:17

理解机器学习算法的一点心得

然后用不同的方法来优化这个问题,得到尽量好的结果,给人的感觉就像是一个黑盒,实际使用中需要不断地调参实验,但倘若你能理解好算法,至少能让这个盒子透明一点,这也是机器学习算法确实需要使用者去理解算法的原因,举个例子:传统算法比如一些高效的数据结构,我只需要知道一些接口就可以使用,不需要进行太多的理解,了解传统算法更多的是理解算法的思想,开阔思路,增强能力;而机器学习算法,你即使知道接口,也至少要调一些参数来达到实际使用的目的。

2014-05-10 18:08:34

GBDT(Gradient Boosting Decision Tree) 没有实现只有原理

阿弥陀佛,好久没写文章,实在是受不了了,特来填坑,最近实习了(ting)解(shuo)到(le)很多工业界常用的算法,诸如GBDT,CRF,topic model的一些算法等,也看了不少东西,有时间可以详细写一下,而至于实现那真的是没时间没心情再做了,等回学校了再说吧。今天我们要说的就是GBDT(Gradient Boosting Decision Tree)

2014-05-03 10:23:18

从item-base到svd再到rbm,多种Collaborative Filtering(协同过滤算法)从原理到实现

〇.说明         本文的所有代码均可在 DML 找到,欢迎点星星。一.引入          推荐系统(主要是CF)是我在参加百度的电影推荐算法比赛的时候才临时学的,虽然没拿什么奖,但是知识却是到手了,一直想写一篇关于推荐系统的文章总结下,这次借着完善DML写一下,权当是总结了。不过真正的推荐系统当然不会这么简单,往往是很多算法交错在一起,本文只是入门水平的总结罢了。 (本文所

2013-12-14 19:49:06

CNN(Convolutional Neural Networks)没有原理只有实现

零.说明:       本文的所有代码均可在 DML 找到,欢迎点星星。        注.CNN的这份代码非常慢,基本上没有实际使用的可能,所以我只是发出来,代表我还是实践过而已一.引入:           CNN这个模型实在是有些年份了,最近随着深度学习的兴起又开始焕发青春了,把imagenet测试的准确度提高了非常多,一个是Alex的工作,然后最近好像Zeiler又有突破性

2013-12-03 23:03:30

大学杂念集 随便写写

大学常思,极少为文,杂念闭胸,不舒不畅。诸君不喜勿喷。   =======================================      今天天气相当不错,本该是去图书馆坐着晒太阳看书看妹子的好日子,可惜被一个Oracle作业折腾得翻来覆去一下午,几欲抓狂,心想做DBA的人上辈子一定都是折翼的天使吧。耐着性子做完收工之后,心里莫名的平静,当然这和我决定今天不去跑步也是有一定关系

2013-11-24 21:07:26

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。