Azoobie-CSDN博客

原创机器学习实战笔记--决策树

本文为《机器学习实战》学习笔记 1. 决策树简介决策树可以从数据集合汇总提取一系列的规则，创建规则的过程就是机器学习的过程。在构造决策树的过程中，不断选取特征划分数据集，直到具有相同类型的数据均在数据子集内。优点：计算复杂度不高。输出结果易于理解，对缺失值不敏感，可以处理不相关的特征数据。缺点：可能会产生过度匹配问题。1.1 划分数据集划分数据集的最大原则是把无序数据变得有序。可以

2017-05-21 17:08:22 1428

原创机器学习实战笔记--kNN

本文为《机器学习实战》学习笔记 1. 相关数据类型&函数介绍SciPy 基于Python生态系统提供了数学运算、科学和工程的开源软件，主要包括基本N维数组包NumPy，科学计算基本库SciPy library，用于2D绘图的Matplotlib，交互式控制台IPython，用于符号数学Sympy，用于数据结构和分析的pandas。1.1 NumPyNumPy是python科学计算的基础包。包括强

2017-05-10 17:03:27 668

原创 Python学习笔记--高级特性

本文为廖雪峰Python教程的学习笔记具体内容，可参考如下链接： [http://www.liaoxuefeng.com/](http://www.liaoxuefeng.com/) 1. 切片(Slice)从list, tuple或string中截取一段出来。 [i : j : k]表示在列表中i <= index < j的开区间中以步长为k取出部分元素，步长默认为1，如果k <

2017-04-18 11:06:53 543

原创 Python学习笔记--函数

本文为廖雪峰Python教程的学习笔记具体内容，可参考如下链接： http://www.liaoxuefeng.com/ Python内置了很多函数，可以直接调用。Python内置的函数可以通过官方文档查看。也可以通过help()查看帮助信息。函数名是指向函数对象的引用，把函数名赋给变量，相当于给函数起了别名。# 变量a为函数abs()的别名a = absa(-1) #结果为11.

2016-11-09 18:10:00 2556 1

原创 C++基础--static静态成员

1. 静态局部对象静态局部对象是位于函数内的静态变量，在调用函数前就被创建并赋初值，在程序结束前都不会被撤销，在函数多次调用过程中持续存在并保持它的值。在头文件中定义静态变量不可行。因为如果在使用该头文件的每个C语言文件中定义静态变量，则每个头文件中都会存在一个单独的静态变量，会引起空间浪费或程序错误。不推荐在头文件中定义任何变量。2. 静态类成员static成员与类关联，独立于类的任意对象，类

2016-11-02 10:42:35 516

原创正则化

正则化防止过拟合，提高模型的泛化能力。1. 线性回归常见损失函数可用最小二乘法求得最优解但如果协方差矩阵不可逆，目标函数最小化导数为0时有无穷解，无法求得最优解。特别是p > n时，难以求得最优解，也有过拟合问题。因此需要对w做限制，使得最优解空间变小，即进行正则化。2. L1-范式（Lasso）Lasso的稀疏结果可以用来进行特征选择，选择非零的维度。稀疏性在提高模

2016-11-02 09:56:39 2752

原创 SQL语句--其他

【复制表】select into from 和 insert intoselect都是用来复制表，两者的主要区别为： select into from 要求目标表不存在，因为在插入时会自动创建。insert into select from 要求目标表存在。

2016-11-01 11:20:02 270

原创 C++基础--STL

【向量&双端队列】与数组相似，项都是连续存储，允许随机访问。但大小在程序运行过程中根据需要自动增加。向量或数组在前面插入或删除时，时间复杂度为O(n)，双端队列为O(1)。Vector1．数组可以快速初始化，向量不能；2． push_back()的平均时间为O(n)，假设插入新项时容量n已满，需要重新分配2n的新空间并将n个项移到新的空间中，并添加新项。Deque

2016-11-01 10:39:30 236

原创 Python学习笔记--Python基础

Python学习笔记–Python基础本文为廖雪峰Python教程的学习笔记具体内容，可参考如下链接： http://www.liaoxuefeng.com/ 1. 字符串　　　字符串是以单引号’或双引号”括起来的任意文本。”或”“本身只是一种表示方式，不是字符串的一部分。　如果’本身也是一个字符，可以用”“括起来，比如”I’m OK”。　如果字符串内部既包含’又包含”，可以用转义

2016-10-27 11:10:28 485

原创 hihoCoder--1039:字符消除

描述小Hi最近在玩一个字符消除游戏。给定一个只包含大写字母"ABC"的字符串s，消除过程是如下进行的：1)如果s包含长度超过1的由相同字母组成的子串，那么这些子串会被同时消除，余下的子串拼成新的字符串。例如"ABCCBCCCAA"中"CC","CCC"和"AA"会被同时消除，余下"AB"和"B"拼成新的字符串"ABB"。2)上述消除会反复一轮一轮进行，直到新的字符串不包含相邻的相同字符

2016-10-13 21:47:06 756

转载 C++基础--ASSERT断言

转自：http://www.cnblogs.com/moondark/archive/2012/03/12/2392315.html　assert是个宏，并且作用并非“报错”。assert()的用法像是一种“契约式编程”，在我的理解中，其表达的意思就是，程序在我的假设条件下，能够正常良好的运作，其实就相当于一个if语句：if(假设成立) { 程序正常运行；} else {

2016-10-08 21:43:53 296

转载 C++基础--拷贝构造函数

一. 什么是拷贝构造函数首先对于普通类型的对象来说，它们之间的复制是很简单的，例如：[c-sharp] view plain copyint a = 100; int b = a; 而类对象与普通对象不同，类对象内部结构一般较为复杂，存在各种成员变量。下面看一个类对象拷贝的简单例子。

2016-09-27 09:45:35 318

原创 C++基础--内联函数

inline函数inline关键字用来定义一个类的内联函数，引入它的主要原因是用它替代C中表达式形式的宏定义。表达式形式的宏定义一例：#define ExpressionName(Var1,Var2) ((Var1)+(Var2))*((Var1)-(Var2))为什么使用inline函数？1. C语言是一个效率很高的语言，这种宏定义在形式及使用上像一个函数，但它使用预处理

2016-09-26 17:20:54 288

转载贝叶斯定理及其应用

转自：http://www.afenxi.com/post/26926贝叶斯分析是整个机器学习的基础框架，它的思想之深刻远出一般人所认知的，我们这里要从贝叶斯统计说起。首先谈概率，概率这件事大家都觉得自己很熟悉，叫你说概率的定义，你却不一定说的出，我们中学课本里说概率这个东西表述是一件事发生的频率，或者说这叫做客观概率。而贝叶斯框架下的概率理论确从另一个角度

2016-09-25 22:11:53 25075 3

原创 C++基础--指针和引用

http://www.cnblogs.com/mq0036/p/3382732.html数组指针（也称行指针）定义 int (*p)[n];()优先级高，首先说明p是一个指针，指向一个整型的一维数组，这个一维数组的长度是n，也可以说是p的步长。也就是说执行p+1时，p要跨过n个整型数据的长度。如要将二维数组赋给一指针，应这样赋值：int a[3][4];int

2016-09-22 11:58:15 336

转载计算机网络--七层协议/五层协议

【OSI七层协议】应用层与其它计算机进行通讯的一个应用，它是对应应用程序的通信服务的。例如，一个没有通信功能的字处理程序就不能执行通信的代码，从事字处理工作的程序员也不关心OSI的第7层。但是，如果添加了一个传输文件的选项，那么字处理器的程序员就需要实现OSI的第7层。示例：TELNET，HTTP,FTP,NFS,SMTP等。表示层主要功能是定义数据格式及加密。例如，F

2016-09-22 11:24:38 17574 1

转载 C++基础--面向对象

一、什么是面向对象？与面向过程有什么区别？面向过程就是分析出解决问题所需要的步骤，然后用函数把这些步骤一步一步实现，使用的时候一个一个依次调用就可以了。面向对象是把构成问题事务分解成各个对象，建立对象的目的不是为了完成一个步骤，而是为了描叙某个事物在整个解决问题的步骤中的行为。例如五子棋，面向过程的设计思路就是首先分析问题的步骤：1、开始游戏，2、黑子先走，3、绘制画面

2016-09-14 13:10:11 271

原创神奇的题

#include #include #include using namespace std;void newOper(vector &mem, int num){ //判断是否有连续num个空间 int s = 0, t = 0; bool put = false; for (int i = 0; i < mem.size(); ++i) {

2016-09-10 23:01:31 289

原创字符串操作

#include #include #include #include using namespace std;//判断行进方向是否为前向bool forw(string base, string fir, string sec) { int loc1, loc2; loc1 = base.find(fir); if (loc1 == string::npo

2016-09-10 22:44:57 223

原创进程线程相关

进程是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。进程间通信主要包括管道,消息队列,信号量,共享内存，SOCKET. 管道分为有名管道和无名管道，无名管道只能用于亲属进程之间的通信，而有名管道则可用于无亲属关系的进程之间。消息队列用于运行于同一台机器上的进程间通信，与管道相似；共享内存通常由一个进程创建，其余进程对这块内存

2016-09-08 19:11:10 248

转载 Hive介绍

http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门

2016-09-06 15:25:56 241

转载 Hadoop--NameNode && SecondNameNode

SecondaryNameNode（SNN）是HDFS架构中的一个组成部分，是用来保存NameNode中对HDFS metadata的信息的备份，并减少NameNode重启的时间。Hadoop的默认配置中让SNN进程默认运行在了NameNode 的那台机器上，但是这样的话，如果这台机器出错，宕机，对恢复HDFS文件系统是很大的灾难，更好的方式是：将SNN的进程配置在另外一台机器上运行。

2016-09-06 11:33:36 1402

转载 Java数据类型转换

http://blog.sina.com.cn/s/blog_5e9f4ac60100dfh7.html1. 数据类型转换的种类java数据类型的转换一般分三种,分别是:(1) 简单数据类型之间的转换(2) 字符串与其它数据类型的转换(3) 其它实用数据类型转换下面我们对这三种类型转换分别进行论述。2. 简单数据类型之间的转换在Java中整型、

2016-09-05 12:59:03 239

原创矩阵相关计算

1. 求逆矩阵及相应对角矩阵A是可逆矩阵的充分必要条件是︱A︱≠0【初等变化法求解逆矩阵】【余子式求逆矩阵】一个矩阵A的余子式（又称余因式）是指将A的某些行与列去掉之后所余下的方阵的行列式。一个矩阵A的(i, j)代数余子式：Cij 是指A的(i, j)余子式Mij与(−1)i +j的乘积：Cij = (−1)i + j Mij

2016-09-02 10:10:36 11657

原创 SQL语句--like和正则表达式的使用

【LIKE子句】LIKE 操作符用于在 WHERE 子句中搜索列中的指定模式。LIKE 子句中使用 ’ % ‘ 字符来表示0个或多个字符，实现模糊匹配。如果没有使用 ‘ % ’ , LIKE 子句与’ = ’ 的效果是一样的。通配符说明： _ 与任意单字符匹配 % 与包含一个或多个字符的字符串匹配 [ ] 与特定范围（例如，[a-f]）或特定集（例

2016-09-01 17:49:01 15747

原创洗牌算法和随机数生成

【题目】要求输入一组数据，输出的结果为这组数据的随机排列。【解题思路】1. 调用头文件algorithms中的random_shuffle函数。该函数的本质就是生成随机位置，不断交换，使得数据重新排列。2. 产生随机数，结合swap函数实现数组的重新排列。【代码】#include #include #include #include #inclu

2016-08-31 22:42:04 2132

转载生成模型与判别模型

http://www.cnblogs.com/kaituorensheng/p/3379170.html监督学习的任务就是学习一个模型，应用这个模型，对给定的输入预测相应的输出。这个模型一般为决策函数：Y=f(X) 或条件概率分布：P(Y|X)。监督学习的学习方法可以分为生成方法（generative approach）和判别方法（discriminative approach）。所

2016-08-26 22:08:52 1456

原创 lintcode-N-Queen, N皇后问题

【题目--33. N-Queens】The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two queens attack each other.Given an integer n, return all distinct solutions to the n

2016-08-14 22:35:05 2760

原创 lintcode178. graph valid tree 图是否是树

【题目】给出 n 个节点，标号分别从 0 到 n - 1 并且给出一个无向边的列表 (给出每条边的两个顶点), 写一个函数去判断这张｀无向｀图是否是一棵树假设我们不会给出重复的边在边的列表当中. 无向边　[0, 1] 和 [1, 0]　是同一条边，因此他们不会同时出现在我们给你的边的列表当中。Given n nodes labeled from 0 to n -

2016-08-13 15:51:35 1502

转载从关系型数据库到非关系型数据库

转自：http://blog.csdn.net/xuanjiewu/article/details/482410451. 关系型数据库关系型数据库，是指采用了关系模型来组织数据的数据库。关系模型是在1970年由IBM的研究员E.F.Codd博士首先提出的，在之后的几十年中，关系模型的概念得到了充分的发展并逐渐成为主流数据库结构的主流模型。简单来说，关系模型指的就是二

2016-08-09 15:31:58 356

原创基于距离的聚类方法--K-means

1. K-means确定k个划分达到平方误差最小优点：算法快速，简单；对大数据集有较高的效率并且可伸缩；时间复杂度接近于线性并且适合挖掘大规模数据集。缺点：k值的选定难以估计，初始类聚类中心点的选取对聚类结果有较大的影响；数据量大时，算法的时间开销大。算法过程：输入：k，data1) 选取k个点作为质心；2) 计算剩余的点到质心的距离并将点归到最近的质心的类；3)

2016-08-02 17:21:00 31349

原创距离和相似性度量

1. 计算距离r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2)来计算距离。 x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有：euclidean 欧几里德距离，就是平方再开方。maximum 切比雪夫距离manhattan 曼哈顿距离，绝对值

2016-08-01 18:39:04 3746

一、.wordcloud包的函数介绍 1.wordcloud函数用于制作常规的词云图 wordcloud(words,freq,scale=c(4,.5),min.freq=3,max.words=Inf,random.order=TRUE, random.color=FALSE, rot.per=.1,colors=black,ordered.colors=FALSE,use.r.layout=

2016-07-25 11:26:25 2102

转载 R语言与数据挖掘学习笔记(常用的包)

今天发现一个很不错的博客(http://www.RDataMining.com)，博主致力于研究R语言在数据挖掘方面的应用，正好近期很想系统的学习一下R语言和数据挖掘的整个流程，看了这个博客的内容，心里久久不能平静。决定从今天开始，只要晚上能在11点之前把碗洗好，就花一个小时的时间学习博客上的内容，并把学习过程中记不住的信息记录下来，顺便把离英语四级的差距尽量缩小。下面列出了可用于

2016-07-25 11:24:19 395

转载 R语言与分类算法的绩效评估

关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法，我们自然需要考虑谁的表现更加的优秀。既然要对分类算法进行评价，那么我们自然得有评价依据。到目前为止，我们讨论分类的有效性都是基于分类成功率来说的，但是这个指标科学吗?我们不妨考虑这么一个事实：一个样本集合里有95个正例，5个反例，分类器C1利用似然的思想将所有的实

2016-07-25 11:22:55 2600

转载 R语言与机器学习学习笔记（分类算法）（6）logistic回归

由于我们在前面已经讨论过了神经网络的分类问题(参见《R语言与机器学习学习笔记(分类算法)(5)》)，如今再从最优化的角度来讨论logistic回归就显得有些不合适了。Logistic回归问题的最优化问题可以表述为：寻找一个非线性函数sigmoid的最佳拟合参数，求解过程可使用最优化算法完成。它可以看做是用sigmoid函数作为二阈值分类器的感知器问题。今天我们将从统

2016-07-25 11:21:17 14623

转载 R语言与机器学习学习笔记（分类算法）（5）神经网络

算法五：神经网络（优化算法）人工神经网络（ANN），简称神经网络，是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统。现代神经网络是算法五：神经网络(优化算法) 人工神经网络(ANN)，简称神经网络，是一种模仿生物神经网络的结构和

2016-07-25 11:19:46 4094

转载 R语言与机器学习学习笔记（分类算法）（4）支持向量机

算法四：支持向量机说到支持向量机，必须要提到july大神的《支持向量机通俗导论》，个人感觉再怎么写也不可能写得比他更好的了。这也正如青莲居士见到崔颢的黄鹤楼后也只能叹“此处有景道不得”。不过我还是打算写写SVM的基本想法与libSVM中R的接口。一、SVM的想法回算法四：支持向量机说到支持向量机，必须要提到july大神的《支持向量机通俗导论》，

2016-07-25 11:18:45 1080

转载 R语言与机器学习学习笔记（分类算法）（3）朴素贝叶斯

算法三：朴素贝叶斯算法前两个算法都被要求做出一个艰难的决定，给出数据所属分类的明确答案，但往往因为分类特征统计不足，或者分类特征选择有误导致了错误的分类结果，哪怕是训练集也有可能出现不能正确分类的情形。这时，前两种方法都如同现实生活一样是用“少数服算法三：朴素贝叶斯算法前两个算法都被要求做出一个艰难的决定，给出数据所属分类的明确答案，但往往因为分

2016-07-25 11:16:16 1858

空空如也

空空如也