自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

转载 nginx的location配置详解

语法规则: location [=|~|~*|^~] /uri/ { … }= 开头表示精确匹配^~ 开头表示uri以某个常规字符串开头,理解为匹配 url路径即可。nginx不对url做编码,因此请求为/static/20%/aa,可以被规则^~ /static/ /aa匹配到(注意是空格)。~ 开头表示区分大小写的正则匹配~*  开头表示不区分大小写的正则匹

2017-11-24 09:20:50 546

转载 CentOS7 64位下MySQL5.7安装与配置(YUM)

安装环境:CentOS7 64位 MINI版,安装MySQL5.71、配置YUM源在MySQL官网中下载YUM源rpm安装包:http://dev.mysql.com/downloads/repo/yum/ # 下载mysql源安装包shell> wget http://dev.mysql.com/get/mysql57-community-release-el7-8.n

2017-11-23 10:17:11 439

转载 关于大型网站技术演进的思考(十一)--网站静态化处理—动静分离策略(3)

前文里我讲到了网站静态化的关键点是动静分离,动静分离是让动态网站里的动态网页根据一定规则把不变的资源和经常变的资源区分开来,动静资源做好了拆分以后,我们就可以根据静态资源的特点将其做缓存操作,这就是网站静态化处理的核心思路。由此可见,网站静态化处理的核心就是动静分离和缓存两大方面,上篇我简单讲述了动静整合的基础知识,本篇将会讲述两大核心之一的动静分离策略,只有把动静分离策略做好了,缓存才能发挥出它

2017-11-23 09:13:15 569

转载 领域模型和设计类图的区别

摘要      本文通过对一个“学生选课系统”示例的简要分析与设计,说明UML图之一类图的两种作用及存在形式,以期借此澄清有些朋友可能对类图存在的误解与困惑。前言      在OOA与OOD大行其道的今天,UML在系统分析与设计中得到了广泛的采用。而在UML的9种图中,类图是最重要也是使用最普遍的图之一。但是,在与一些朋友,特别是初学者的聊天当中,我发现很多朋友对类图的作用及使用方

2017-11-19 13:58:21 2740

转载 中文情感分析语料库

中文情感分析语料库http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93中文情感分析的语料库非常少,这五个中文语料库是我在网上的搜集的。  

2017-11-03 16:20:12 7952

转载 K-Means聚类算法以及扩展算法K-Modes、K-Prototype

k-means聚类算法是一种简单易行,时间复杂度低的聚类算法,特别是针对大规模的数据集。但其只能处理数值属性限制了他的应用范围,它的具体算法步骤如下:1.确立最终聚类处理得到簇的个数,如果有先验知识,如知道一个数据集为有3类,则可设k=3。如果不清楚,有一些指导性方法可确定估计值;2.选取k条初始记录作为质心,k条记录的欧式具体尽量大,说明记录的相关性低,提高聚类效果;3.

2017-11-03 10:07:26 9992 1

转载 数据挖掘十大算法--K-均值聚类算法

一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。      设 ,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:

2017-11-03 09:48:57 5600

原创 HIVE-ERROR 1045 (28000): Access denied for user 'root'@'%' (using password: YES)

在安装Hive的时候报错:org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.Underlying cause: java.sql.SQLException : Access denied for user 'root'@'master.hadoop' (using passwor

2017-10-25 15:16:09 5663

转载 IDEA下Maven依赖包下载不下来的问题解决方案

在Mac下使用IDEA作为开发环境时,如果遇到maven依赖的包不能下载,可以看看是不是其setting.xml文件配置的问题,注意默认情况下,其指向的镜像服务器是否是http://repo.maven.apache.org/maven2。设置方法,可以通过右键项目找到maven选项,open setting.xml选项进行时修改配置文件。xml version="1

2017-10-08 14:56:03 9729

转载 Bagging与随机森林算法原理小结

在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。    随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力

2017-09-14 16:12:10 493

转载 岭回归原理及代码实现

岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大

2017-09-14 09:59:35 11692

转载 xgboost原理

1.序  距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboost相关,于是重新写一下这篇文章。  关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT、论文、一些网络资源,希望对xgboost原理进行深入理解。(笔者在最后的参考文献中会给出地址)2.xgboost vs gbdt 

2017-09-10 13:43:36 497

转载 梯度提升树GBDT原理

1.模型提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型: 其中,表示决策树;为决策树的参数;M为树的个数2.学习过程回归问题提升树使用以下前向分布算法:在前向分

2017-09-10 13:41:25 489

转载 Earth Mover's Distance (EMD)距离

原文: http://d.hatena.ne.jp/aidiary/20120804/1344058475作者: sylvan5翻译: Myautsai和他的朋友们(Google Translate、shuanger、qiu)本文将讨论Earth Mover’s Distance (EMD),和欧式距离一样,它们都是一种距离度量的定义、可以用来测量某两个分布之间的距离。EMD主

2017-09-06 14:27:19 9110

转载 隐马尔科夫模型(二)

作者:henry链接:https://www.zhihu.com/question/20962240/answer/64187492来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。隐形马尔可夫模型,英文是 Hidden Markov Models,所以以下就简称 HMM。既是马尔可夫模型,就一定存在马尔可夫链,该马尔可夫链服从马尔可夫性质:即无

2017-08-29 19:36:55 588

转载 隐马尔科夫模型(一)

什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能

2017-08-29 19:35:24 445

转载 决策树的特性及优缺点

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。        决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。        构建决策树采用贪心算法,只考虑当前纯度差最大的

2017-08-24 15:57:23 16880

转载 Java中为什么要使用内部类

一、前言关于Java的内部类,要说的东西实在太多,这篇博文中也无法一一具体说到,所以就挑些重点的讲。关于内部类的使用,你可能会疑问,为什么我们要使用内部类?为了回答这个问题,你需要知道一些关于内部类的重点。所以本篇文章首先介绍了一些关于内部类的一些与众不同的地方,后面再解答为什么我们要使用内部类这个问题。各位看官,文章稍微有点长,深吸一口气。来,我们开始吧!二、内部类定义

2017-08-23 13:51:43 777

转载 java中的匿名内部类总结

匿名内部类也就是没有名字的内部类正因为没有名字,所以匿名内部类只能使用一次,它通常用来简化代码编写但使用匿名内部类还有个前提条件:必须继承一个父类或实现一个接口 实例1:不使用匿名内部类来实现抽象方法12345678910111213

2017-08-23 10:45:11 190

转载 关于协方差矩阵的理解

在《主成分分析》中,我们用到了协方差矩阵,但当时并没有对其进行深入的讨论。为此,本文将针对协方差矩阵做一个详细的介绍,其中包括协方差矩阵的定义、数学背景与意义以及计算公式的推导。

2017-08-22 14:34:28 372

转载 面向对象三大基本特性,五大基本原则

透切理解面向对象三大基本特性是理解面向对象五大基本原则的基础.三大特性是:封装,继承,多态  所谓封装,也就是把客观事物封装成抽象的类,并且类可以把自己的数据和方法只让可信的类或者对象操作,对不可信的进行信息隐藏。封装是面向对象的特征之一,是对象和类概念的主要特性。 简单的说,一个类就是一个封装了数据以及操作这些数据的代码的逻辑实体。在一个对象内部,某些代码或某些数据可以是私有

2017-08-18 12:34:14 187

转载 java面试题(一)

问题1:如果main方法被声明为private会怎样?答案:能正常编译,但运行的时候会提示”main方法不是public的”。问题2:Java里的传引用和传值的区别是什么?传引用是指传递的是地址而不是值本身,传值则是传递值的一份拷贝。问题3:如果要重写一个对象的equals方法,还要考虑什么?hashCode。问题4:Java的”一次编写,处

2017-08-18 09:28:49 202

转载 ROC和AUC介绍以及如何计算AUC

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里](http://bubblexc.com/y2011/148/)。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。# ROC曲线需要提前说明的是,我们这里只

2017-08-08 20:10:41 261

转载 时间序列模型的三个重要概念

时间序列在量化投资中具有广泛的应用,时间序列分析是金融量化分析重要组成部分,是构建策略时需要重点考虑的问题。一般来讲,时间序列的分析技术在量化投资中的应用有:对未来的资产价格预测模拟序列探索金融时间序列的趋势和周期性时间序列与其他变量的内在关系,为策略提供辅助和增强不同时间序列之间的关系,发现新的策略波动率建模,期权相关的策略在时间序

2017-08-02 14:57:09 8487

转载 交叉验证(Cross Validation)

假设我们需要从某些候选模型中选择最适合某个学习问题的模型,我们该如何选择?以多元回归模型为例:,应该如何确定k的大小,使得该模型对解决相应的分类问题最为有效?如何在偏倚(bias)和方差(variance)之间寻求最佳的平衡点?更进一步,我们同样需要知道如何在加权回归模型中选择适当的波长参数,或者在基于范式的SVM模型中选择适当的参数C?我们假设模型集合为有限集,我们的目的就是从这d个模型

2017-07-30 22:11:40 820

转载 数据标准化/归一化normalization

这里主要讲连续型特征归一化的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。基础知识参考:[均值、方差与协方差矩阵 ][矩阵论:向量范数和矩阵范数 ]数据的标准化(normalization)和归一化    数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处

2017-07-27 14:53:12 6821

转载 数据挖掘之特征选择

作者: Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情

2017-07-27 14:35:44 1577 1

转载 分类中数据不平衡问题的解决经验

问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息

2017-07-27 09:20:43 634 1

原创 Java对象数组深拷贝

Java对象数组深复制

2017-07-16 19:57:10 3569

转载 kNN与kMeans聚类算法的区别

kNN与kMeans聚类算法的区别KNNK-Means目的是为了确定一个点的分类目的是为了将一系列点集分成k类KNN是分类算法K-Means是聚类算法监督学习,分类目标事先已知非监督学习,将相似数据归到一起从而得到分类,没有外部分类训练

2017-07-15 15:48:50 891

转载 numpy教程:统计函数Statistics

lz总结的一般统计函数np.unique()返冋其参数数组中所有不同的值,并且按照从小到大的顺序排列。它有两个可选参数:return_index : Ture表示同时返回原始数组中的下标。Return_inverse: True表示返冋重建原始数组用的下标数组。a = np.array([1, 1, 9, 5, 2, 6, 7, 6, 2, 9])>>> np.

2017-07-15 11:07:02 944

原创 在dataframe两列日期相减并且得到具体的月数

df = pd.DataFrame(np.random.randn(6,4), index=pd.date_range('20130101', periods=6), columns=list('ABCD'))df.A = pd.date_range('20160101', periods=6)print (df)df1 = pd.DataFrame(np.random.randn(6

2017-07-14 20:11:34 12479 1

转载 混淆矩阵(Confusion Matrix)分析

ContentConfusionMatrixExampleTalbe ofconfusionPreference Confusion Matrix在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matchin

2017-07-13 20:23:17 3152

转载 String使用equals和==比较的区别

"=="操作符的作用1、用于基本数据类型的比较2、判断引用是否指向堆内存的同一块地址。equals所在位置:在Object类当中,而Object是所有类的父类,包含在jdk里面,但并不适合绝大多数场景,通常需要重写public boolean equals(Object obj) { return (this == obj); }

2017-07-11 19:48:13 203

转载 ifstream作为函数的参数要加&

ifstream作为函数的参数要加&void foo(ifstream ifs) {} // 编译出错void foo(ifstream& ifs) {} // 编译成功原因:stream不能被复制

2017-06-11 16:40:13 3812

转载 解决VMware中的linux能上网不能ping通

VMware中的linux能上网不能ping通的可能偏方一1.现象描述         VMware中装的ubuntu,host机是win7,VMware中用的NAT模式,Host机可以上网(用浏览器可以打开网页),ubuntu也能上网(同样也是通过浏览器可以看网页),并且host机和ubuntu之间可以相互Ping通,在win7下也能ping到外网,但是现在问题来了:在U

2017-04-30 19:00:58 3640 1

转载 shell脚本中单引号和双引号的区别

shell脚本中的单引号和双引号一样都是字符串的界定符,而不是字符的界定符。单引号用于保持引号内所有字符的字面值,即使引号内的\和回车也不例外,但是字符串中不能出现单引号。(注意是所有,只是单引号本身不能够出现在其中)。    双引号用于保持引号内所有字符的字面值(回车也不例外),但以下情况除外:$加变量名可以取变量的值反引号仍表示命令替换\$表

2017-04-28 15:47:17 881

原创 在Shell里面判断字符串是否为空

主要有以下几种方法:echo “$str”|awk '{print length($0)}'expr length “$str”echo “$str”|wc -c但是第三种得出的值会多1,可能是把结束符也计算在内了判断字符串为空的方法有三种:if [ "$str" =  "" ] if [ x"$str" = x ]if [ -z "$str" ] (-n

2017-04-28 15:45:26 2491

转载 c++拼接字符串效率比较(+=、append、stringstream、sprintf)

c++拼接字符串效率比较(+=、append、stringstream、sprintf)      最近写的程序用到大量拼接字符串,为了提高拼接效率,比较了一下+=、append、stringstream、sprintf四种拼接字符串的方法。测试方法      比较方法是写了4个函数,分别用+=、append、stringstream、sprintf的方式来拼接字符

2017-04-27 16:31:04 878

转载 shell中用awk分割字符串

例如一个字符串为:hua nong jing chao,我想以空格为分隔符把次字符串分开,并把分割后的字符串赋值给4个变量var1,var2,var3,var4方法如下:           var1=`echo "hua nong jing chao"|awk -F ' ' '{print $1}'`           echo $var1           var2=`ec

2017-04-26 10:49:41 6382

Android官方API中文文档

Android开发必备,Android官方API文档中文版,可以查阅Android开发中的API

2015-08-09

Android-support-jar

android-support-jar,包含了Android-support-v4,Android-support-v7-appcompat,Android-support-v7-gridlayout,Android-support-v13等jar包

2015-07-05

词法分析器(Java)

Java实现的词法分析器,可以辨别关键字,界符,运算符和标识符。

2015-07-05

vc的概述和简介

Visual C++ 6.0是由Microsoft公司推出的基于Windows系统的可视化集成开发环境。同其他可视化集成开发环境一样,Visual C++ 6.0集程序的代码编辑、编译、连接和调试等功能于一体,再加上Microsoft公司为Visual C++ 6.0开发的功能强大的MFC(Microsoft Foundation Class,微软基础类库),使Visual C++ 6.0成为开发Windows应用程序的最佳选择。

2014-08-18

vc概述和简介

Visual C++ 6.0是由Microsoft公司推出的基于Windows系统的可视化集成开发环境。同其他可视化集成开发环境一样,Visual C++ 6.0集程序的代码编辑、编译、连接和调试等功能于一体,再加上Microsoft公司为Visual C++ 6.0开发的功能强大的MFC(Microsoft Foundation Class,微软基础类库),使Visual C++ 6.0成为开发Windows应用程序的最佳选择。

2014-08-18

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除