自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云淡风清

记录一下平常看过的好的文章

  • 博客(109)
  • 收藏
  • 关注

转载 工作流程与模型调优

1. 前序工作流程1.1 数据部分数据清洗:丢掉不可信的样本; 不用缺省值极多的字段。数据采样:采用下/上采样保证样本均衡。1.2 特征工程  上一篇笔记重点讲了特征工程中的特征处理和特征选择。特征处理包括数值型、类别型、时间型、文本型、统计型和组合特征;特征选择包括过滤型、包裹型和嵌入型,在这里不再赘述。下图总结了特征处理中的流程和方法。

2016-07-12 16:08:07 1815

原创 C++全角与半角互转

1.全角:指一个字符占用两个标准字符位置。汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。一般的系统命令是不用全角字符的,只是在作文字处理时才会使用全角字符。2.半角:指一字符占用一个标准的字符位置。通常的英文字母、数字键、符号键都是半角的,半角的显示内码都是一个字节。在系统内部,以上三种字符是作为基本代码处理的,所以用户输入命令和参数时一般都使用

2016-03-11 10:30:08 9892

转载 一文读懂机器学习,大数据/自然语言处理/算法全有了……

在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?我

2016-01-26 11:54:22 1109

原创 使用boost正则表达式查找所有字符串

场景:1.比如在html中查找出现过的标签,好提取图片地址.2.编译器不支持C++11标准时使用boost库是比较好的选择.例子:#include #include #include #include #include using namespace std;int main(int argc, char *argv[]){ std::stri

2015-05-13 15:37:14 2033

原创 Linux安装Mysql+Apach+PHP+php

一、安装mysql(mysql-5.0.21.tar.gz)   # tar zxf mysql-5.0.21.tar.gz# cd mysql-5.0.21#./configure --prefix=/usr/local/mysql --sysconfdir=/etc --localstatedir=/var/lib/mysql/说明:   #prefix=/usr/loca

2015-04-15 16:32:13 1124

原创 python中半角与全角互相转换

半角与全角的转换,代码如下:# -*- coding: cp936 -*-def strQ2B(ustring): """全角转半角""" rstring = "" for uchar in ustring: inside_code=ord(uchar) if inside_code == 12288:

2015-01-09 11:01:32 5888

转载 开发者必备的6款源码搜索引擎

摘要:虽然自己编码很重要,但是在遇到一个功能时,利用现成的代码不失为一种好方法,或许还会达到事半功倍的效果。但千万不要单纯地“用”,更多地是理解与提升,这样才会进步。在推动技术变革上,开源运动发挥了非常显著的作用。而Linux成功地将开源转换成商务模式,给广大开源工作者带来了更大的信心和勇气。目前,开源已成为主流,在未来的几年内,它的足迹将会遍布前沿教育、航空航天(如无人驾驶飞机)等许多领

2014-09-24 14:19:38 1004

转载 经典算法大全

1.河内之塔........................................................................................................................................ 42.Algorithm Gossip: 费式数列..............................

2014-09-24 09:46:32 3920 1

原创 扒网页并且解析

#!/usr/bin/python#coding=utf-8import sys import reimport urllib2from urllib import urlencodefrom urllib import quoteimport timemaxline = 2000wenda = re.compile("href=\"http://wenda.so.com/

2014-09-19 15:45:52 1776

原创 决策树算法实现(python)

'''Created on Oct 12, 2010Decision Tree Source Code for Machine Learning in Action Ch. 3@author: cainiao'''from math import logimport operatordef createDataSet(): dataSet = [[1, 1, 'yes'],

2014-09-15 10:55:58 3634 1

原创 php数据库操作

function fuck_json(array &$data){    $str = '';    $arr_root = array();    foreach($data['result'] as $row)    {        $arr = array();        foreach($row as $key=>$value)        { 

2014-09-15 10:49:55 651

转载 排序算法汇总总结

一、插入排序直接插入排序(Insertion Sort)的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。插入排序在实现上,通常采用in-place排序(即只需用到O(1)的额外空间的排序),因而在从后向前扫描过程中,需要反复把已排序元素逐步向后挪位,为最新元素提供插入空间。代码实现:#i

2014-09-05 11:03:07 592

转载 C++虚函数表机制解析(转)

C++中的虚函数的作用主要是实现了多态的机制。关于多态,简而言之就是用父类型别的指针指向其子类的实例,然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”,这是一种泛型技术。所谓泛型技术,说白了就是试图使用不变的代码来实现可变的算法。比如:模板技术,RTTI技术,虚函数技术,要么是试图做到在编译时决议,要么试图做到运行时决议。      关于虚函数的使用方法,我

2014-09-04 15:08:45 655

转载 [转]读《Boost程序库完全开发指南》

第1章 Boost程序库总论使用Boost,将大大增强C++的功能和表现力  第2章 时间与日期timer提供毫秒级的计时精度,内部是通过std::clock取时间的progress_timer自动打印某生命周期的执行时间原则上程序库的代码是不应该被用户修改的progress_display可以在控制台上显示程序的执行进度date_time库能很好的表示日期时间概念

2014-08-26 10:40:54 1265

原创 决策树代码实现

代码说明

2014-08-19 15:57:23 2953

转载 线性回归标准方程及其概率解释

线性回归作为一种监督学习方法,在机器学习领域中属于最基本的优化问题,即根据现有的数据集,找到一个能够最好拟合这组数据的线性函数即可,根据这个线性函数对新来的数据进行预测。本文将会覆盖最简单的线性回归的解释和标准方程求解最优线性回归参数,至于梯度下降法求解,会有单独的另外一篇博客介绍。什么是回归分析显而易见,线性回归就是一种回归分析,那么什么是回归分析呢?简单的说

2014-07-17 20:02:05 11209 1

转载 K-Means聚类的Python实践

K-Means应该是最简单的聚类算法之一了吧,理论上很简单,就是随即初始化几个中心点,不断的把他们周围的对象聚集起来,然后根据这群对象的重置中心点,不断的迭代,最终找到最合适的几个中心点,就算完成了。然后,真正实践的时候才会思考的更加深入一点,比如本文的实践内容就是一个失败的案例(算法是成功的,场景是失败的)。什么是聚类简单的说,就是对于一组不知道分类标签的数据,可以通

2014-07-17 17:56:07 2779

转载 蓄水池抽样算法证明

这个题很老了,刚刚遇到一个类似的题目,不是让写怎么实现的,而是要证明结果确实是等概率,我了擦一下子忘了怎么证明了,以前竟然是把答案给背下来了,鄙视一下自己原题:现在有一组数,不知道这组数的总量有多少,请描述一种算法能够在这组数据中随机抽取k个数,使得每个数被取出来的概率相等。即假如一共有N个数,那么最终结果是每个取出来的数都是以1/N的概率取出来的。答案据说这是

2014-07-17 17:55:04 1599

原创 MapReduce如何使用多路输出

Streaming支持多路输出(SuffixMultipleTextOutputFormat)如下示例:hadoop streaming \-input /home/mr/data/test_tab/ \-output /home/mr/output/tab_test/out19 \-outputformatorg.apache.hadoop.mapred.lib.Suffix

2014-06-24 20:38:13 5930

转载 文本向量表示及TFIDF词汇权值

文本相似计算是进行文本聚类的基础,和传统结构化数值数据的聚类方法类似,文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同,文本数据是一种半结构化数据,在进行文本挖掘之前必须要对文本数据源进行处理,如分词、向量化表示等,其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分

2014-06-11 17:48:59 3036

转载 字符编码笔记:ASCII,Unicode和UTF-8

1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。上个世纪60年代,美国制定了一套字符编码,对英语字符与

2014-05-15 20:28:02 694

转载 算法杂货铺——k均值聚类(K-means)

4.1、摘要      在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首

2014-03-08 17:53:44 1729 1

转载 算法杂货铺——分类算法之决策树(Decision tree)

3.1、摘要      在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。

2014-03-08 17:45:02 3342

转载 算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)

2.1、摘要      在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更

2014-03-08 17:29:45 1509

转载 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

0、写在前面的话      我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。      一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知

2014-03-08 16:56:03 1621 1

原创 买房必知:需要什么手续 按揭买房需要哪些证件

各地的情况不同。一般是户口本,身份证,结婚证(单身提供单身证明),单位收入证明及银行流水账单,不同银行政策或许会有小分别。另外外地户口还需提供社保或纳税证明(各地年限不同)。首先确保资格审核通过全款买房需要的证件一、需要准备的证件有:1、已婚:夫妻双方的结婚证、身份证、户口本2、单身:身份证、户口本、单身证明二、手续:一次性付款,一般直接到售

2014-02-28 09:52:00 1000

转载 libsvm 使用介绍

一、介绍:        LIBSVM是台湾大学林智仁(Chih-Jen Lin)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件还有一个特点,就是对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数就可以解决很多问

2014-02-24 15:07:36 1190

转载 Linux下的Libsvm使用历程录

首先下载Libsvm、Python和Gnuplot:l         libsvm的主页http://www.csie.ntu.edu.tw/~cjlin/libsvm/上下载libsvm (我自己用2.86版本)l         python的主页http://www.python.org下载 python (我自己用2.5版本)l         gnuplot的主页http:

2014-02-24 15:06:14 3956

转载 (转)职场警示:20不努力,30做助理

大二的表弟给我打电话,说大学生活很无聊,日子不知道该怎么打发。他是不想泡妞的,因为“时间还没到”,他内心深处隐隐认为应该做点什么,方不荒废青春,却不知该做些什么好。我知道这孩子一向乖,也一向有毅力,不然以湖北的高考难度,也不能进入现在的全国重点。我问了他的学习和生活状况,他说家里给的生活费足够,不需要他出去打工。学习成绩虽不能拿奖学金,但还算不错,业余也看些书,参加些社团,但却觉得这些“很

2014-02-10 18:26:57 1006

转载 TF-IDF及其算法

概念     TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作

2014-02-10 18:19:08 1256

转载 Hadoop Streaming命令

1 Streaming命令使用下面的命令运行Streaming MapReduce程序:$HADOOP_HOME/bin/hadoop streaming args其中args是streaming参数,下面是参数列表:-input 输入数据路径-output

2013-11-22 10:48:38 1913

转载 linux awk命令详解

简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。awk其名称得自于它的创始人 Alfr

2013-11-18 10:16:02 968

原创 python中的urlencode与urldecode

当url地址含有中文,或者参数有中文的时候,这个算是很正常了,但是把这样的url作为参数传递的时候(最常见的callback),需要把一些中文甚至'/'做一下编码转换。一、urlencodeurllib库里面有个urlencode函数,可以把key-value这样的键值对转换成我们想要的格式,返回的是a=1&b=2这样的字符串,比如:>>> from urllib impo

2013-11-13 16:04:09 255472 8

原创 python字符串操作(序)

在python有各种各样的string操作函数。在历史上string类在python中经历了一段轮回的历史。在最开始的时候,python有一个专门的string的module,要使用string的方法要先import,但后来由于众多的python使用者的建议,从python2.0开始, string方法改为用S.method()的形式调用,只要S是一个字符串对象就可以这样使用,而不用import。

2013-11-13 15:44:07 1013

原创 C++写出关机、重启、注销、休眠等操作:

C++写出关机、重启、注销、休眠等操作,上代码:#include #include using namespace std;int main(){ int i; cout<<"1、关机"<<endl <<"2、重启"<<endl <<"3、注销"<<endl <<"4、休眠"<<endl <<"5、取消"<<endl; cin>>i; switch(i)

2013-11-08 15:39:01 3591

转载 Python正则表达式操作指南

字符匹配大多数字母和字符一般都会和自身匹配。例如,正则表达式 test 会和字符串“test”完全匹配。(你也可以使用大小写不敏感模式,它还能让这个 RE 匹配“Test”或“TEST”;稍后会有更多解释。)这个规则当然会有例外;有些字符比较特殊,它们和自身并不匹配,而是会表明应和一些特殊的东西匹配,或者它们会影响到 RE 其它部分的重复次数。本文很大篇幅专门讨论了各种元字符及其作用。

2013-11-06 14:56:53 1045

转载 Python distribution打包&安装流程

需求:写了一堆自定义的模块,由于较为底层,其他模块想import的时候是十分悲剧的,各种找不到有木有,换个路径就郁闷,换台机器就悲剧想类似python第三方模块一样,一个setup.py搞定,就能随便import实现:python distribution,然后得到一个包了,使用setup.py install安装然后,使用时候直接import就

2013-11-06 14:25:53 1378

转载 [Python]项目打包:5步将py文件打包成exe文件

1.下载pyinstaller并解压(可以去官网下载最新版):http://nchc.dl.sourceforge.net/project/pyinstaller/2.0/pyinstaller-2.0.zip2.下载pywin32并安装(注意版本,我的是python2.7):http://download.csdn.net/download/lanlandec

2013-11-06 11:21:22 3381 1

原创 python中的字符串

字符串连接方法1: 用字符串的join方法a = ['a','b','c','d']content = ''content = ''.join(a)print content方法2: 用字符串的替换占位符替换a = ['a','b','c','d']content = ''content = '%s%s%s%s' % tuple(a)print conten

2013-11-05 18:03:18 8391 1

原创 Hadoop实例:二度人脉与好友推荐

在新浪微博、人人网等社交网站上,为了使用户在网络上认识更多的朋友,社交网站往往提供类似“你可能感兴趣的人”、“间接关注推荐”等好友推荐的功能。一直很好奇这个功能是怎么实现的。其实,社交网站上的各个用户以及用户之间的相互关注可以抽象为一个图。以下图为例:顶点A、B、C到I分别是社交网站的用户,两顶点之间的边表示两顶点代表的用户之间相互关注。那么如何根据用户之间相互关注所构成的图,来向每个

2013-11-05 16:55:52 2720

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除