Dark_Scope-CSDN博客

原创 AI浪潮里的数据

数据、计算力和算法，是这次AI浪潮的顶梁柱，这个说法从12年至今被无数大佬背书过，平时我们学习的东西主要着眼于算法，常常忽略其他两项。计算力是我们训练和运行算法的基础平台，从12年开始GPU被广泛地用来进行模型的训练，普通家用的GTX 1080Ti显卡就有相当不错的计算效率，也有大量的研究工作被投入到这个方向，比如很多手机里都有的神经网络计算专用芯片等等；另一个顶梁柱「数据」，其实对...

2020-04-17 18:45:02 596

原创三十天博客计划-《算法能解决什么问题？》

一.问题>数据>算法最近几年人工智能行业如火如荼，最近今年也能看到越来越多的落地应用：人脸识别、AI拍照、自动驾驶、智能音箱等等等等。所有的这些应用常常都是一个复杂的工程，其中可能会包含数个甚至数十上百个算法模型，我们可以抽丝剥茧，从最基本的算法功能单元总结出一些算法解决问题的范式，这对我们寻找新的算法应用场景有很大的价值。一般做算法的人会...

2020-04-10 22:04:37 1915

原创三十天博客计划之《引言》

大学的时候开始维护一个博客:DarkScope从这里开始，断断续续几十篇文章，也累积了一些访问量。不过最近的一篇已经是17年12月了，没有继续下去的原因很多，但归根结底是没有找到一个可持续发展的方式去提高博客的内容质量：不想一直写粗糙的内容，但图文并茂、简洁清晰的博客又需要大量精力来准备；单纯的技术内容也很难一直保持热情；全部投入都押在周末占用了做其他事情的时间。 ...

2020-04-04 17:55:02 528 1

原创采样方法（二）MCMC相关算法介绍及代码实现

0.引子书接前文，在采样方法（一）中我们讲到了拒绝采样、重要性采样一系列的蒙特卡洛采样方法，但这些方法在高维空间时都会遇到一些问题，因为很难找到非常合适的可采样Q分布，同时保证采样效率以及精准度。本文将会介绍采样方法中最重要的一族算法，MCMC（Markov Chain Monte Carlo），在之前我们的蒙特卡洛模拟都是按照如下公式进行的：

2017-12-30 15:32:14 25332 3

原创 NE(Network Embedding)论文小览

NE(Network Embedding)论文小览自从word2vec横空出世，似乎一切东西都在被embedding，今天我们要关注的这个领域是Network Embedding，也就是基于一个Graph，将节点或者边投影到低维向量空间中，再用于后续的机器学习或者数据挖掘任务，对于复杂网络来说这是比较新的尝试，而且取得了一些效果。本文大概梳理了最近几年流行的一些方法和论文，paper主要是来自t

2017-07-04 07:47:23 34647 4

原创采样方法（一）

本篇文章先主要介绍一下经典的采样方法如Inverse Sampling、Rejective Sampling以及Importance Sampling和它在NLP上的应用，后面还会有一篇来尝试介绍MCMC这一组狂炫酷拽的算法。才疏学浅，行文若有误望指正。

2017-04-30 08:46:18 31248 31

原创序列的算法（一·b）隐马尔可夫模型

序言….. 本系列对算法的讲解都会从两篇部分予以呈现：a. 湿货部分要浅入浅出，形象生动，读得明白。 b. 干货部分要一文以蔽之，公式罗列，看得通透；下面是（一）的 b 部分内容UnigramUnigram模型认为序列中的每一项都是独立发生的，所以很自然，假设我们有N个序列，每个序列长度是MnM_n，那么整个序列的联合概率分布就是： P(X)=∏iN∏jMip(Xji) P(X) =

2017-03-19 12:42:53 11772 5

知乎上看到一个回答，说是自己学习神经网络的时候都是自己对公式求导，现在常见的DL库都可以自动求导了。这个想必实现过神经网络的同学都有体会，因为神经网络的back-propagation算法本质上就是求导链式法则的堆叠，所以学习这部分的时候就是推来推去，推导对了，那算法你也就掌握了。粗粗一想，只要能把所有操作用有向图构建出来，通过递归去实现自动求导似乎很简单，一时兴起写了一些代码，整理成博客记录一下。

2017-03-17 16:33:32 12695 3

原创序列的算法（一·a）马尔可夫模型

序列的世界（一.a）序言机器学习领域往往按照算法的应用分为各大领域，如NLP、CV、MT等等，一些算法往往也被打上各自应用的标签，但其实对于算法本身而言，只要你能按照他指定的格式输入数据，就能够产出相应的结果，并不是限定到某个领域，只要你能对问题抽象成算法需要的input，就可以在这个问题上发挥算法的价值。在这里我们会关注一系列输入是「序列」的算法，这里的序列包括但不限于「文本序列」、「时间序列」、

2017-03-11 14:50:29 18781 4

原创维度打击，机器学习中的降维算法：ISOMAP & MDS

降维是机器学习中很有意思的一部分，很多时候它是无监督的，能够更好地刻画数据，对模型效果提升也有帮助，同时在数据可视化中也有着举足轻重的作用。一说到降维，大家第一反应总是PCA，基本上每一本讲机器学习的书都会提到PCA，而除此之外其实还有很多很有意思的降维算法，其中就包括isomap，以及isomap中用到的MDS。ISOMAP是‘流形学习’中的一个经典算法，流形学习贡献了很多降维算法，其中一些与很多

2016-11-19 13:15:28 39124 17

原创从PCA和SVD的关系拾遗

从PCA和SVD的关系拾遗最近突然看到一个问题，PCA和SVD有什么关系？隐约记得自己照猫画虎实现的时候PCA的时候明明用到了SVD啊，但SVD（奇异值分解）和PCA的（特征值分解）貌似差得相当远，由此钻下去搜集了一些资料，把我的一些收获总结一下，以免以后再忘记。PCA的简单推导PCA有两种通俗易懂的解释，1)是最大化投影后数据的方差(让数据更分散)；2)是最小化投影造成的损失。这两个思路最后都能推

2016-11-13 19:38:27 41299 21

原创时间复杂度最小的最短路径算法?由这个想到的

最近看书发现了一段很有意思的东西,好像是谷歌的工程师发表在谷歌黑板报里的：有一次，我笨得忘记了该如何在一个复杂的有向图中找出两点之间的最短路径。身边的一位工程师很郑重地告诉我说：“你知道吗？解决这个问题有两种方法，聪明人的方法和笨人的方法。聪明人的方法是：照着算法教科书的讲解，实现那个时间复杂度相当大的名叫嘀嘀哒嘀哒的最短路径算法。笨人的方法时间复杂度最低：找一堆线头来，按照有向

2015-12-03 20:36:23 17090 8

原创 RNN以及LSTM的介绍和公式梳理

前言好久没用正儿八经地写博客了，csdn居然也有了markdown的编辑器了，最近花了不少时间看RNN以及LSTM的论文，在组内『夜校』分享过了，再在这里总结一下发出来吧，按照我讲解的思路，理解RNN以及LSTM的算法流程并推导一遍应该是没有问题的。RNN最近做出了很多非常漂亮的成果，比如Alex Graves的手写文字生成、名声大振的『根据图片生成描述文字』、输出类似训练语料的文字等应用，都让人感

2015-07-25 16:32:32 293333 47

原创地理位置信息数据可视化(DVisualMap)

地图方面数据的可视化因为在实习的时候接触到了一些GPS的数据，所以把这些数据投影出来看就是分析数据很重要的一部分了，当时用高德地图的接口就写了一个投射点的地图工具，但是非常卡，最多1000个点就动不了了，这次借机就写个地图工具，试了一下加入10000个点还能基本保持流畅，当然这个工具也不过是简单地在Leaflet上进行的封装，包装了一些易用的接口出来，如果你有更多的需求，强烈建议使用Leaflet。当然如果你想在在html上绘制简单图表，并且没有其它特殊要求的话，现在也是可以试用一下的，本

2015-03-19 09:20:15 19528

原创基于javascript的简单数据可视化:DVisual

基于html5和javascript的简单数据图表绘制，很方便地就可以得到精美的图像。最近看了不少数据可视化的书，所以也就顺理成章想做点东西，同时准备把『数据可视化套件开发』这个作为毕业设计搞一搞，花了一两周写了一个DVisual出来，目前倒是只支持一些基本的图表绘制，后面可能会加入一些比较炫酷的图标，以及鼠标操作等功能吧。当然如果你想在在html上绘制简单图表，并且没有其它特殊要求的话，现在也是可以试用一下的，本文就简单用中文介绍一些使用方法把，感觉我这个用起来还是蛮方便的

2015-02-01 11:11:17 11100 1

原创理解机器学习算法的一点心得

然后用不同的方法来优化这个问题，得到尽量好的结果，给人的感觉就像是一个黑盒，实际使用中需要不断地调参实验，但倘若你能理解好算法，至少能让这个盒子透明一点，这也是机器学习算法确实需要使用者去理解算法的原因，举个例子:传统算法比如一些高效的数据结构，我只需要知道一些接口就可以使用，不需要进行太多的理解，了解传统算法更多的是理解算法的思想，开阔思路，增强能力；而机器学习算法，你即使知道接口，也至少要调一些参数来达到实际使用的目的。

2014-05-10 18:08:34 23260 7

原创 GBDT(Gradient Boosting Decision Tree) 没有实现只有原理

阿弥陀佛，好久没写文章，实在是受不了了，特来填坑，最近实习了(ting)解(shuo)到(le)很多工业界常用的算法，诸如GBDT,CRF,topic model的一些算法等，也看了不少东西，有时间可以详细写一下，而至于实现那真的是没时间没心情再做了，等回学校了再说吧。今天我们要说的就是GBDT(Gradient Boosting Decision Tree)

2014-05-03 10:23:18 140637 37

原创从item-base到svd再到rbm，多种Collaborative Filtering(协同过滤算法)从原理到实现

〇.说明本文的所有代码均可在 DML 找到，欢迎点星星。一.引入推荐系统（主要是CF）是我在参加百度的电影推荐算法比赛的时候才临时学的，虽然没拿什么奖，但是知识却是到手了，一直想写一篇关于推荐系统的文章总结下，这次借着完善DML写一下，权当是总结了。不过真正的推荐系统当然不会这么简单，往往是很多算法交错在一起，本文只是入门水平的总结罢了。（本文所

2013-12-14 19:49:06 62364 48

原创 CNN(Convolutional Neural Networks)没有原理只有实现

零.说明：本文的所有代码均可在 DML 找到，欢迎点星星。注.CNN的这份代码非常慢，基本上没有实际使用的可能，所以我只是发出来，代表我还是实践过而已一.引入： CNN这个模型实在是有些年份了，最近随着深度学习的兴起又开始焕发青春了，把imagenet测试的准确度提高了非常多，一个是Alex的工作，然后最近好像Zeiler又有突破性

2013-12-03 23:03:30 24464 11

原创大学杂念集随便写写

大学常思，极少为文，杂念闭胸，不舒不畅。诸君不喜勿喷。 ======================================= 今天天气相当不错，本该是去图书馆坐着晒太阳看书看妹子的好日子，可惜被一个Oracle作业折腾得翻来覆去一下午，几欲抓狂，心想做DBA的人上辈子一定都是折翼的天使吧。耐着性子做完收工之后，心里莫名的平静，当然这和我决定今天不去跑步也是有一定关系

2013-11-24 21:07:26 12005 3

原创 SVM --从“原理”到实现

零. 本文所有代码均能在我 github上的 DML 找到，顺便求点Star一.引入从一开始接触机器学习，就感觉SVM（支持向量机 Support Vector Machine）就是高端大气上档次的代名词啊，在深度学习出来之前一直都力压ANN一头，是应用得最好的算法了，本文借着实现DML的机会实现一下。二.原理 SVM的文章先不

2013-11-23 16:42:18 32429 4

原创 KNN(k-nearest neighbor algorithm)--从原理到实现

零. 本文所有代码实现均可以在 DML 找到，不介意的话请大家在github里给我点个Star一.引入 K近邻算法作为数据挖掘十大经典算法之一，其算法思想可谓是intuitive，就是从训练集里找离预测点最近的K个样本来预测分类因为算法思想简单，你可以用很多方法实现它，这时效率就是我们需要慎重考虑的事情，最简单的自然是求出测试样本和训练集所有点的距

2013-11-13 12:31:40 23945 8

原创 AdaBoost--从原理到实现

一.引入对于Adaboost，可以说是久闻大名，据说在Deep Learning出来之前，SVM和Adaboost是效果最好的两个算法，而Adaboost是提升树(boosting tree)，所谓“提升树”就是把“弱学习算法”二.原理三.实现

2013-11-03 14:33:07 186392 56

原创决策树--从原理到实现

================================================================================算算有相当一段时间没写blog了，主要是这学期作业比较多，而且我也没怎么学新的东西接下来打算实现一个小的toy lib：DML，同时也回顾一下以前学到的东西当然我只能保证代码的真确性，不能保证其效率啊~~~~~~之后我会陆续

2013-10-27 13:07:05 71422 7

原创【面向代码】学习 Deep Learning（四） Stacked Auto-Encoders(SAE)

==========================================================================================最近一直在看Deep Learning，各类博客、论文看得不少但是说实话，这样做有些疏于实现，一来呢自己的电脑也不是很好，二来呢我目前也没能力自己去写一个toolbox只是跟着Andrew Ng的

2013-08-13 10:21:27 42724 15

原创【面向代码】学习 Deep Learning（三）Convolution Neural Network(CNN)

==========================================================================================最近一直在看Deep Learning，各类博客、论文看得不少但是说实话，这样做有些疏于实现，一来呢自己的电脑也不是很好，二来呢我目前也没能力自己去写一个toolbox只是跟着Andrew Ng的

2013-07-26 15:01:06 77612 50

原创【面向代码】学习 Deep Learning（二）Deep Belief Nets(DBNs)

==========================================================================================最近一直在看Deep Learning，各类博客、论文看得不少但是说实话，这样做有些疏于实现，一来呢自己的电脑也不是很好，二来呢我目前也没能力自己去写一个toolbox只是跟着Andrew Ng的

2013-07-24 11:50:07 67812 99

原创【面向代码】学习 Deep Learning（一）Neural Network

==========================================================================================最近一直在看Deep Learning，各类博客、论文看得不少但是说实话，这样做有些疏于实现，一来呢自己的电脑也不是很好，二来呢我目前也没能力自己去写一个toolbox只是跟着Andrew Ng的UFLDL

2013-07-23 16:24:00 105628 124

原创趣写算法系列之--匈牙利算法

【书本上的算法往往讲得非常复杂，我和我的朋友计划用一些简单通俗的例子来描述算法的流程，这只是刚开始的样稿，其实我们也才刚开始】匈牙利算法是由匈牙利数学家Edmonds于1965年提出，因而得名。匈牙利算法是基于Hall定理中充分性证明的思想，它是部图匹配最常见的算法，该算法的核心就是寻找增广路径，它是一种用增广路径求二分图最大匹配的算法。-------等等，看得头大？那么请看下

2013-07-18 13:39:59 169833 233

原创 OpenCV 的人脸detect及PCA匹配

好久没写东西了，一来考试周，二来一直在看deep learning的东西，整理好了一个presentation的ppt，但不是很适合发博客上，学校安排无聊的实习，就把说了很久要看的OpenCV拿出来搞搞人脸识别在OpenCV里面比较简单（我没想到这么简单……）直接调用cvHaarDetectObjects()即可，虽然也不是很好，比如偏头呀，用手遮之后detect的效果就很差强人意了，但我也没

2013-07-18 10:38:48 13164 10

原创一个简单的Http服务器

计算机网络的课程设计代码，使用基本的socket编写的，采用多线程处理访问写了一下午，本来想把php链进来，结果之后就不想碰了~~~环境是 VS2010主要是两个类：HttpServer：用来创建监听response：用来响应请求能够处理GET 和 POST报文只是因为没有后台的脚本语言处理，所以把请求参数显示在了控制台的界面上完整的代码和可运行程序在github~~~~~

2013-05-30 20:06:26 3375

原创 NLP 学习笔记 06 (Brown Clustering && Global Linear Models)

=================================================================== all is based on the open course nlp on coursera.org week 9,week 10 lecture ================================================

2013-05-06 16:28:48 8906

原创 NLP 学习笔记 05 (Log-linear Models)

============================================================== == all is based on the open course nlp on coursera.org week 7,week 8 lecture == ===========================

2013-04-22 17:32:14 16090 3

原创 NLP 学习笔记 04 (Machine Translation)

all is based on the open course nlp on coursera.org week 5,week 6 lecture---------------------------------------------------------------------------------------------------------------------------

2013-04-09 19:39:51 11660

原创 NLP 学习笔记 03 (Probabilistic Context-Free Grammars (PCFGs))

最近一周有些拖沓，静下来把第3,4周的笔记写了这两周的主题都是PCFGs，不过从浅到深，逐层深化罢了，所以题目就用Probabilistic Context-Free Grammars (PCFGs)了1.Introduction ----------------------------------------------------------------------

2013-03-26 20:51:59 6133 1

原创 UFLDL练习(PCA and Whitening && Softmax Regression)

softmax纠结了两天，原因是自己不小心改了主程序还是照例只是贴贴代码，如果你有需要的话可以去看UFLDL的教程至于效果和UFLDL都是一样的，我就不重复贴图了啊，ps：代码是matlab的，不是python的PCA and Whitening：pca_gen.m%%=====================================================

2013-03-14 13:03:57 8049 10

原创新浪微博小爬虫

一直琢磨着写个爬虫玩，上学期都没实行，于是花了大概一天写了这个东西其实半天就把程序调试好了，可是在往mysql数据库里保存数据的时候出了问题 python的中文编码实在是非常麻烦，不光如此，因为有些用户的简介里有一些特殊符号，®或者笑脸之类的，于是在这里纠结了很久，好歹最后是成功了(其实也就是过滤掉了那些特殊符号) 效率来说呢，开始的时候一

2013-03-08 13:21:50 27037 45

原创 NLP 学习笔记 02 (Tagging Problems, and Hidden Markov Models)

(all content based on the coursera course nlp)--------------------------------------------------------------------------------------------------------这一周的主要课程是tagging problems首先是简单介绍了一下supervise

2013-03-06 11:06:08 4763

原创 UFLDL练习(Sparse Autoencoder)

最近开始学习UFLDL，一个deep learning的教程这个练习的地址：http://deeplearning.stanford.edu/wiki/index.php/Exercise:Sparse_AutoencoderSparse Autoencoder是用神经网络进行feature learning的一个算法，详细的就见教程，我只是贴贴代码从早上十点多一直debug到下午

2013-03-03 18:24:46 23698 30

原创 NLP 学习笔记 01

coursera上MichaelCollins的课程nlp开始了，在读大部头(mlapp)学习ML的过程中看看nlp也着实不错，可以做一些实践这个课程老师语速很慢，讲解思路十分清晰，推荐给大家。在学习中我可能会把两周的内容在我的blog做一个总结(也许是一周的，看内容的多少了，这第一周的内容太详实了，总结起来太费劲了)，方便以后学习和查看--------------------

2013-02-28 18:37:48 13193 3

微博小爬虫

多元正态分布多元正态分布

空空如也