高斯拟合的周萌萌-CSDN博客

原创 SVM （support vector machine）一个在svm文章中你可能可以看懂的版本。

鉴于网上所有博客都是上来就贴公式，本人在学习的时候，根本没有办法理解svm到底要干什么，所以有了这篇稍微通俗一点的讲解并且附上本人的学习资料。（u其实就是x）关于第一步的解释：我们把坐标系中的点都看作是向量（坐标系就是你选取的feature），w 是分界线的垂直向量，根据图上的公式，我们可以求任何一个点在决策线的垂直方向上的投影。根据这个投影长度是不是超过决策线，我们就可以判断这个点的分类...

2018-05-22 07:30:29 1389

原创 Google面试题图论的问题

这道题目摘自九章算法 https://www.jiuzhang.com/article/6ai0yN/题目是输入与输出这个题目本质上就是删除一个使该图内部成环的一条边，使整个图中不存在环。这个题目我认为原文的解释有点复杂，最快的方法就是操作数组，角标代表一个顶点，角标所对应的数组的数值代表一个顶点，而角标到该角标数值的对应，我们认为是角标代表的顶点到这个数值...

2018-03-19 03:56:14 3360

转载流行的前端框架，nodejs，reactjs，angularjs，requirejs，seajs

转载自 http://uikoo9.com/blog/detail/java-vs-nodejs-reactjs-angularjs-requirejs-seajs【前端神秘的面纱】对后端开发来说，前端是神秘的，眼花缭乱的技术，繁多的框架，如果你还停留在前端等于只用jquery做开发，那么你out了，本文从Java的角度简述下目前前端流行的一些框架。水平有限，欢迎指正。【nodejs】官网：htt...

2018-02-27 12:00:09 495

原创理解感知器perceptron，以及感知器如何应用

感知器是一个1958年被提出的机器学习算法，到今天仍在使用。它是一个有监督学习的线性回归解决二分类问题。主要解决的问题就是在给定训练集（data，label）的条件下，如何给每个数据找到一个特有的权重，使得最终的结果可以拟合训练数据各自的标签分类。这个时候可以定义一个线性的模型（比如：文本情感分类中，模型=sum（词频*权重）），将得到的结果与一个阈值（比如是0）进行比较，大于0就是正向的，小于...

2018-02-27 01:09:16 2138

转载 numpy知识点大全及如何用python作图

这篇文章转载的初衷是，我在搜索这类操作的时候，要不就是很早的文章，要不就是只写了一部分功能，如果想完成什么的话，需要把文章东拼西凑起来很麻烦。这个教程的作者是 Justin Johnson.作者背景：I am a PhD student in the Stanford Vision Lab, advised by Professor Fei-Fei Li .I'm mainly intereste...

2018-02-11 12:05:59 1559

原创自然语言处理NLP——从发展历程简述word2vector好在哪里？

word2vec是极简主义的谷歌公司开发出来的一套工具，主要问题是解决文本词的预测问题，即给定上下文，得到该位置最大可能的结果。在此之前有很多功能类似的方法，比如统计模型中的Ngram模型。但是这个模型存在很多问题。首先一阶模型忽略了词与词之间的顺序关系，本质上与向量空间模型，没什么区别。而三阶以上的模型，首先计算量太大，其次，段落与段落之间，句子与句子之间一些词语也会共现，对于整体的效果不是很...

2018-02-10 03:10:44 3219

原创深度学习笔记-卷积神经网络CNN与循环神经网络RNN有什么区别？

CNN与RNN本质的不同就是所基于的假设不同，由于核心假设的不同，导致实现方式的差异。CNN首先理解什么叫做卷积，或者说为什么要翻译为卷积神经网络。卷积的定义：https://baike.baidu.com/item/%E5%8D%B7%E7%A7%AF/9411006?fr=aladdin简单来说，卷积就是两个相对运动的几何图形，在相交到相离之间，重叠的面积。对于CNN神

2018-02-01 04:38:40 35020

原创在某算法比赛上看到的惊为天人的算法解决计算完美闭合括号数量问题（（）（）？？））——java-based

原题是这样的：给定字符串序列（）（）？？（？判断这里面包含几个完美闭合的（）。？可以代表）或者（。e.g. 上述序列的完美闭合（）字串是：（）（）？？（？（）（）（）？？？？（？（）（）？？（）？？（？（）（）？？（？答案是10，因为有十种可以完美闭合的字串。注：（？？）可以表示为（）（）和（（））都是完美闭合的括号。但

2018-01-31 06:50:48 2848 1

原创自然语言处理NLP——情感分析（Sentiment Analysis）简述

基于文本的情感分析，主要关注文章中的主观句，所以，subjective classifier即将主观句从文本中分离出来，就是整个情感分析的第一步。一般来说，这个方法是基于规则的分类方法——句子中包含n（一般为2）个表达情感的词语时就认为这个句子是主观句。对于这个问题，Bing Liu 给出了一个情感分析的模型，对于非比较主观句而言，分为五个成分：O 为实体对象F 为实体特征SO 为

2018-01-30 06:48:15 21476

原创压缩的类别——static semi-static adaptive

文件的压缩一直都是互联网非常重要的一个环节，它的直接作用就是服务于文件的传输。文件的压缩可以按照压缩方式分为三个类别， static 静态压缩， semi-static 半静态压缩和 adaptive，适应性压缩。static：利用已有的数据集直接进行压缩。比如，用字典压缩一个文本，每一个单词都可以对应到这个单词的索引，如几页几行（便于理解，假设这种表示方式会节省bit的情况下）。

2018-01-29 06:52:58 443 1

转载罗辑回归，Logistic Regression(or sigmoid function)

2018-01-25 02:55:15 2958

转载几种字符串匹配的方法，以及一个讲解的很清晰的KMP匹配

1，普通的穷举法暴力破解就是类似于建立敏感词字典树那种感觉，两个角标，两个循环，一点一点比较。 2，Rabin-Karp算法比第一个算法高级一点，是用hash值的思想来比较的，先算出要比较的字符串的hash值，再一段一段的算出待比较字符串字串的hash值，这个时候，如果hash值不同，自然进入下一个字串的比较，如果hash值相同，再用一个一个character对比的方法，

2018-01-10 06:20:30 793 1

原创基于几条大神链接的理解，总结数据降维处理——PCA

PCA的目的就是在数据特别多而且特征散乱的情况下，找到很少的几个差别很大的特征，丢弃其他差别较小的特征（也可以认为是噪声），这样可以将数据简化又不会丢失太多的特征差别。在坐标系中表示，就是找到一个新的坐标系，让这些数据点在坐标轴伤的投影差距最大，看下图：（字丑多担待。。。）http://blog.csdn.net/zhongkelee/article/details/44

2017-12-12 04:49:11 2742 1

原创基于线性回归与核函数——linear function & basis function 的代码，处理马拉松数据

首先，线性规划，比较简单，对误差方程 Ex = （y-mx-c）^2 分别求偏导，再令偏导等于0 一步一步的求出m和c。令偏导等于0的原因是为了寻找极致点，我们假设每次迭代的都是极值点，而极值点的特点是导数为0。python代码表示就是:for i in np.arange(1000000): m = ((y - c)*x).sum()/(x*x).sum()

2017-11-01 01:17:37 4935 1

原创理解梯度下降，随机梯度下降，附电影推荐系统的简单代码小样 2

这是这一title 的下半部分，主要是因为这个浏览器好像缓存不了那么多东西，所以写到某一个临界点的时候，总是崩溃，要死了我都。最后一部分，老师给了八十万行的数据，让我们自行处理，本来是要按照上面的代码处理一下就好了，我自己写了个三维的图。import pandas as pd#three dimensions, x is item y is rating z is th

2017-10-22 23:25:56 495

原创理解梯度下降，随机梯度下降，附电影推荐系统的简单代码小样 1.

白话梯度下降：梯度下降的官方概念网上有很多，说了也没用，反正我刚学的时候是没太看懂。需要的背景知识，偏导率（很重要）两个坐标点的距离，是两个向量的点乘积以实际问题为例，一个电影推荐系统，向量v（v1，v2）代表这个电影本应存在的位置，用户向量u（u1，u2）代表用户存在的位置，现在有实际数据是每个电影的网站评分，和一些用户对某些电影的评分，去评估每个电影应该存在的位置以

2017-10-22 22:48:14 718

原创机器学习基础之概率浅析，电影分析

本文主要以一个电影统计的数据作为分析的基础数据，进而描述一下如何用python 进行简单的数据分析统计，得出想要的结果。本文用到的csv中的数据为——电影上映的年份，电影中死亡的人数。首先从github上将数据下载下来：import urllib.requesturllib.request.urlretrieve('https://github.com/sjmgarnie

2017-10-01 21:18:01 550

原创布尔检索和向量空间模型——nlp基础学习笔记

首先说布尔检索，顾名思义用0，1 代表真假值来进行检索。比如两句话我爱吃鸭，他爱吃鸡可以构造出一个二维矩阵：横坐标是每一句话包含的信息，纵坐标是所有文字句子1 句子2 句子n。。。。你00。。我10。。他01。。吃11。。等等。。。。。当用户想要检索某些文字的时候直接查找对应的文章就好了。但是这样表述太浪费空间，远远不够实践所需的条件，所以倒排索引就应运而生。正排索引就是像上...

2017-07-06 17:38:56 2405

原创学习笔记之快速排序——quicklySort——基础算法——java

本来在本科学的数据结构特别水，老师和同学们还总是妖魔化快速排序这个算法，，，导致在心里觉得它是一个大boss。。。结果自己动手之后，发现快速排序极其简单，只要熟练他的思想，就不怕写不出来。。快速排序的思想就是：找到第一个元素应该在的位置middle，通过左右来回比较，然后以此为分界，让左边的数组重复这一步骤，右边的数组重复这一步骤，利用递归的思想，将一个大数组拆分成无数个小

2017-07-06 15:29:21 305

原创经典排序算法——堆排序（基本算法之一）

因为最近搞堆排序发现，网上有一些代码的思想没错，，但是角标的处理上有一些瑕疵。。。。所以就想自己写一个堆排序主要的思想就是将角标看作是一个完全二叉树，这里不懂的话建议去补一补数据结构所以树的跟节点为0，左节点是 2i+1右节点是 2i+2然后利用递归的思想，将这棵完全二叉树每一个小分支上最大的一个节点浮上去，最后，保证根节点是现有数据里面最大的那个数字，再将这个节点放

2017-06-09 23:14:38 328 1

原创理解prim(普里姆算法）——图的最小生成树

首先是算法的思想，当时我接触到这个思想的时候，，我第一个想法是普里姆太牛逼了。。。。这个算法的主要目的是有一个乱七八糟的图，我们要连通这些顶点并且在其中找到一个的边的权重最小和第一步我们要找到一个顶点，，并且把它最小的边找到，然后连接，，现在我们有两个顶点这两个顶点，在所有对外连接的边里，找到一个最小的并连接，这样我们就有了三个点.............

2017-06-08 01:20:46 1071 1

转载为什么要指令重排序和屏障的作用

内存屏障是一个很神奇的东西，之前翻译了Linux内核文档memory-barriers.txt，对内存屏障有了一定有理解。现在用自己的方式来整理一下。在我看来，内存屏障主要解决了两个问题：单处理器下的乱序问题和多处理器下的内存同步问题。为什么会乱序现在的CPU一般采用流水线来执行指令。一个指令的执行被分成：取指、译码、访存、执行、写回、等若干个阶段。然后，多条指令可以同时存在于流水

2017-06-01 17:16:18 853

原创 volatile 浅显描述

volatile 并不能保证并发下操作的原子性，而是保证了并发时的可见性。仅在以下场景中可以保证操作的原子性1 运算的结果不依赖于当前的变量值，或者只有单一线程在修改变量2 变量不需要其他变量共同参与不变约束需要的背景知识：1 java多线程的内存获取java对于内存的操作是间接的，每一条线程都有一个工作内存，这些工作内存与主内存之间还要进行 save 和

2017-06-01 17:13:22 285 1

weixin_35227692的博客