自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(131)
  • 资源 (15)
  • 收藏
  • 关注

原创 西瓜书第二章总结

1、欠拟合比较好解决,过拟合则很麻烦,而且必须认识到过拟合是无法避免的,我们所做的只能是“缓解”。2、模型评估2.1、留出法(hold out):留出法将数据集D划分为两个互斥的集合,其中一个座位训练集S,另一个作为测试集T。 即 S + T= D,S交集T为空。在S上训练出模型后,用T来评估测试误差,作为对泛化误差的估计。注意1,训练/测试集的划分要尽可能的保持数据分布的一致性...

2019-04-25 20:56:37 1139

原创 西瓜书第一章的几条总结

1、奥卡姆剃刀(Occam's razor)是一种常用的、自然科学研究中最基本的原则。即“若有多个假设与观察一致,则选择最简单的那个”2、“天下没有免费的午餐”定理(No Free Lunch Theorem,简称 NFL),证明了所有算法的期望性能都相同。但我们要注意到NFL定理有一个重要的前提:所有“问题”出现的机会相同、或所有问题同等重要。但实际上并不是这样。很多时候我们只关注自己正在试...

2019-04-20 16:17:44 514

转载 XGBoost算法原理

转自:XGBoost与Boosted Tree | 我爱计算机 1. 前言   应 @龙星镖局 兄邀请写这篇文章。作为一个非常有效的机器学习方法,Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好,对于输入要求不敏感,往往是从统计学家到数据科学家必备的工具之一,它同时也是kaggle比赛冠军选手最常用的工具。最后,因为它的效果好,计算复杂度不高,也在工业界中有大量的应用...

2018-11-12 14:32:36 2096

转载 GBDT算法原理

GBDT即可用于解决回归问题,也能用于解决分类问题。在初步理解GBDT时,最好从回归和分类的角度分别理顺思路,发现其中的不同和关键点,就能初步明白GBDT的算法原理。接下来从回归和分类的角度分别记录下:1、回归的角度——初步:GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁...

2018-11-05 20:48:40 7724 2

翻译 AdaBoost算法原理

                                            AdaBoost算法原理前言1、AdaBoost(Adaptive Boosting)是boosting类算法最著名的代表。2、Kearns 和 Valiant首先提出了“强可学习” 和 “弱可学习”的概念。指出:在概率近似正确学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能够学习它...

2018-10-30 21:43:29 7837 1

翻译 集成学习方法

这篇博文的记录思路:1、说明集成学习的定义即什么是集成学习。2、说明集成学习的分类。3、按照分类介绍。4、其他相关概念和经验的罗列。集成学习的定义集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将他们结合起来。(“个体学习器”举例:由C4.5决策树算法、BP神经网络算法、LR、线性回归等生成的学习器。)集成学习的分类根据个体学习器的生成方式,目前的集成学习大致分为两大类:...

2018-10-22 09:47:44 955 1

转载 推荐相关的观点、典型例子记录

1、广告、搜索、推荐相关人员与技术和业务产品之间的关系,想将广告和搜索做好更多的从广告系统(技术)和搜索系统(技术)的角度出发即可,但是想把推荐做好需要从推荐产品的角度出发,而不仅仅是推荐系统(技术)的角度。基于此一个懂算法的产品经理或是能用产品语言沟通的算法工程师是难能可贵的!!!2、关于产品与算法的关系,产品是1,算法是0。没有合适的产品之前,算法对用户几乎不产生什么价值,一旦产品成立...

2018-07-24 16:07:21 638

原创 ES创建索引的过程

                                                                                    ES中创建索引的详细分析总览ES 创建索引最终都会调用 org/elasticsearch/index/engine/InternalEngine.java 中下面的方法:public IndexResult index(Index...

2018-05-12 11:40:11 13291

原创 elasticsearch中版本号(version)的问题

    今天在分析ES的索引的创建过程中看到了些和version相关的变量(例如:versionForIndexing)。这些个变量是干什么的呢?    答:用于冲突处理的。    在ES的应用场景中,使用index API更新文档,可以一次性读取原始文档,做修改,然后重新索引整个文档,最近的索引请求将获胜:无论最后哪一个文档被索引,都将唯一存储在ElasticSearch中,如果其他人同时更改了...

2018-04-18 20:27:28 25046 2

原创 elasticsearch 分析器

一、Elasticsearch的分析器(analyzer)包括三部分:    1、字符过滤器:他们的任务是在分词前整理字符串。一个字符过滤器可以用来去掉HTML,或者将 & 转化成 `and`等。    2、分词器:简单的分词器遇到空格或标点的时候讲文本拆分为词条(Token)。    3、Token过滤器:改变词条(eg: Quick --> quick);删除词(eg: a ,t...

2018-04-17 17:41:22 471

原创 IntelliJ IDEA中Elasticsearch 6.1.0调试环境搭建

环境:Windows(注:很多ES调试环境的搭建都是Mac,可惜没钱买macbook pro)1、我的目的:阅读分析ES的源码。2、搭建debug环境需要的软件为:2.1、git2.2、IntelliJ IDEA2.3、gradle2.4、elasticsearch 6.1.0源码。      2.5、elasticsearch 6.1.0官方发布的可运行版本。3、搭建步骤(为了有IDE阅读代码,...

2018-04-08 20:07:32 3403 1

转载 图解Python深拷贝和浅拷贝

参见连接:http://www.cnblogs.com/wilber2013/p/4645353.html总结:Python中对象的赋值都是进行对象引用(内存地址)传递使用copy.copy(),可以进行对象的浅拷贝,它复制了对象,但对于对象中的元素,依然使用原始的引用.如果需要复制一个容器对象,以及它里面的所有元素(包含元素的子元素),可以使用copy.deepcopy()进行深

2018-01-30 14:28:36 315

原创 ELK系统系列 2——Logstash的安装使用&性能调优

Logstash的安装&使用总:官网链接下载已经编译好的Logstash。到bin目录下: 执行./logstash -f ../config/xxx.conf 即可使用logstash。分-1:上述命令中xxx.conf文件是自行需要配置的,以我个人的使用为例,如下图: 至此就可以实现我的目的;将文件中的数据导入到我的elasticsearch集群了。分-2:为了更灵活的使用log

2017-08-14 10:27:16 761

原创 ELK系统系列 1 ——ElasticSearch集群搭建

ElasticSearch集群搭建背景:我们要搭建一个ELK系统,目标是用于检索系统和用户画像系统。选用的版本是elasticsearch5.5.0+logstash5.5.0+kibana5.5.0。ElasticSearch集群搭建步骤:1.安装java 8以上版本的JDK。从http://www.oracle.com/technetwork/java/javase/downloads/jdk

2017-08-11 16:07:03 1195

原创 Linux环境变量的区分

Linux环境变量的区分Linux和windows一样,分为用户环境变量和系统环境变量!配置用户的环境变量只需要编辑用户住文件夹下面的 .bashrc 文件即可。还有一个文件里的环境变量是在这个文件之前读取的,这样我们就可以设置这个文件,从而为系统设置环境变量(注意这里是为整个系统,root用户的设置和普通用户无异!)需要修改这个文件:/etc/profile修改该

2017-08-11 14:54:35 519

原创 Logstash的使用

现在有一个“用户画像”的项目;前期需要搭建一个ElasticSearch的集群用来存储用户的行为数据;在搭建好ES的集群后,导入数据到ES是一个问题,采用的是Logstash进行数据导入;现将Logstash使用过程中碰到的问题记录如下:1. 刚刚接触Logstash,对各个参数都不熟悉,需要多次试验。但是最后发现,指定一个文件后,Logstash只读取一次,如果需要读取多次需要添加参数sin

2017-07-19 15:15:22 1026

原创 分词算法

1.正向最大匹配算法基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下:以上内容参见:http://yangshangchuan.iteye.com/blog/2031813此文章还对比了linked list、array、trie树和hash table的方式实现正向最大

2017-03-30 16:33:41 892

转载 点到平面的距离公式的推导

点到平面的距离公式准备知识平面的一般式方程Ax +By +Cz + D = 0其中n = (A, B, C)是平面的法向量,D是将平面平移到坐标原点所需距离(所以D=0时,平面过原点)向量的模(长度)给定一个向量V(x, y, z),则|V| = sqrt(x * x + y * y + z * z)向量的点积(内积)给定两个向量V1(x1, y1, z1)和V2(...

2017-03-22 10:09:41 6341

转载 字符串常量到底存放在哪个存储区

字符串常量,放在哪个存储区呢?是“自动存储区”还是“静态存储区”中?比如:char *pstr="hello world!";这里,"hello world!"是一个字符串常量,pstr是在栈中的变量。我想问,字符串常量,在哪个内存区域分配空间呢?好像应该不是在“栈区“分配空间吧!!!一、预备知识—程序的内存分配一个由C/C++编译的程序占用的内

2017-03-15 17:15:34 10321 4

转载 【C++模版之旅】神奇的Traits

介绍traits的文章很多,但感觉大部分文章的说明都很晦涩难懂,把一个并不很复杂的C++模板的应用描述的过于复杂。忍不住想把自己的理解跟大家分享一下,或许我也只是掌握了一点traits的皮毛而已,但也希望这些皮毛能略微抓住你的眼球,带给你一些启发。首先,介绍traits前,回味一下C++的模板及应用,如果你脑海里浮现出的只是为实现一些函数或类的重用的简单模板应用,那我要告诉你,你out

2017-03-08 19:39:24 320

原创 面试中memcopy函数实现中的陷阱!

先看下标准memcopy。其函数原型为 void memcopy(void *dst, const void *src, size_t n);// if copying takes place between objects that overlap, the behavior is undefined.通过阅读上图中的“Description”会发现我们需要注意的一个点是:注意

2017-02-27 12:01:58 2134 1

原创 C++ Singleton单例实现方式

1.singleton模式的意图是什么?或者说使用singleton模式解决的问题是什么?答:保证一个类仅有一个实例,并提供一个访问它的全局访问点,该实例被所有程序模块共享!!!2.解决上述问题的方法:方法一: 全局变量或是静态变量此方法存在的问题:这样做虽然能保证方便的访问实例,但是不能保证只声明一个对象——也就是说除了一个全局实例外,仍然能创建此类的局部实例。当然一

2017-02-21 18:33:22 651 1

转载 一种神奇的数据结构—小波树

本文转载自:http://chuansong.me/n/2035229Succinct简洁数据结构是一种来自生物信息学的研究成果,根据Wiki百科的定义是在数据压缩存储达到接近信息熵下界时仍然保持高效的查询性能的一类数据结构。听起来有些拗口,通俗点说就是既能压缩存储还能高速检索。Succinct数据结构有很多,小波树(wavelet tree)是其中最常见有效的

2017-02-17 17:40:31 5530 5

原创 世界上第一个编译器是被什么编译的?

汇编语言又叫助记符,每一个指令都对应着一个二进制编码。首先:先有的汇编然后有的C及其他语言。那时候写的汇编程序怎么编译呢?其实就需要一个“机器码写的编译器”来编译汇编语言!即:汇编代码---->(机器码写的编译器)----->机器码其次:后来又有了C及其他语言。C写的代码要编译需要用汇编语言写一个编译器——“汇编语言写的编译器”! 即:C程序---->(汇编语言写的编译器)-->机器码(注

2017-02-10 11:09:02 6813 1

原创 SQLite-database disk image is malformed问题的解决

此句英文的意思是数据库文件损坏。怎么证明SQLite数据库文件损坏呢?首先sqlite3 database_name进入数据库然后运行命令 PRAGMA integrity_check;如果数据库文件损坏就会报损坏的错误,如何数据库文件是完好的就会显示OK。数据库文件损坏:数据库文件完好:遇到这个问题怎么解决?参见此网址:http

2017-02-07 15:12:46 43876

转载 How to Write a Spelling Corrector

How to Write a Spelling Corrector原文链接:http://norvig.com/spell-correct.html;One week in 2007, two friends (Dean and Bill) independently told me they were amazed at Google's spelling correction.

2017-01-20 11:25:00 1155

原创 BP神经网络

ContentsBP神经网络的认识隐含层的选取正向传递子过程反向传递子过程BP神经网络的注意点BP神经网络的C++实现1. BP神经网络的认识BP(Back Propagation)神经网络分为两个过程(1)工作信号正向传递子过程(2)误差信号反向传递子过程在BP神经网络中,单个样本有个输入,有个输出,在输入层和输出层之间通常还有若干个隐含层。实际 上,1

2016-12-03 20:02:00 2048

原创 记录若干个概率论的公式

由于不知道:联合概率:表示两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。P(AB)等价于P(A,B)导致自己一直和困惑带 “逗号” 的条件概率公式的推广,特此记录。

2016-11-29 21:45:08 2895

翻译 决策树

决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的判定,每个分支代表这个特征属性在其值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。决策树的构造过程不依赖领域知识,决策树的构造就是根据计算公式(信...

2016-11-25 14:39:27 10056

转载 BP神经网络原理推到&代码实现

今天来讲BP神经网络,神经网络在机器学习中应用比较广泛,比如函数逼近,模式识别,分类,数据压缩,数据挖掘等领域。接下来介绍BP神经网络的原理及实现。 Contents   1. BP神经网络的认识  2. 隐含层的选取  3. 正向传递子过程  4. 反向传递子过程  5. BP神经网络的注意点  6. BP神经网络的

2016-11-23 20:10:14 3139

原创 jupyter notebook conda Ipython环境配置for ML

刚开始接触这个东西,由于之前一直是在linux环境下开发,就直接在linux服务器上开始了环境的配置,安装到最后发现没有UI貌似使用不了jupyter notebook。由于总是使用linux环境,心中莫名的排斥在windows下做开发,所以就在虚拟机上配置环境,最后发现虚拟机上的浏览器在jupytre notebook运行时,页面上的运行按钮不能正常显示 + 虚拟机感觉很慢,用户体验非常差。

2016-11-20 11:07:19 3044

转载 全概率公式、贝叶斯公式推导过程

全概率公式、贝叶斯公式推导过程 (1)条件概率公式        设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为:                     P(A|B)=P(AB)/P(B) (2)乘法公式         1.由条件概率公式得:         

2016-11-03 20:17:27 2753

转载 一道经典概率题的终极解法——后验事实与先验概率的关系

四、一道经典概率题的终极解法——后验事实与先验概率的关系经典题目:有三个门,里面有一个里有汽车,如果选对了就可以得到这辆车,当应试者选定一个门之后,主持人打开了另外一个门,空的。问应试者要不要换一个选择。假设主持人知道车所在的那个门。经典解法:第一次选择正确的概率是1/3,因此汽车在另外两个门里的概率是2/3。主持人指出一个门,如果你开始选错了(2/3概率),则剩下

2016-11-03 17:16:47 1678

原创 k近邻算法

理论部分:         k近邻算法简单、直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例多数属于某个类,就把输入实例分为这个类。这就是k近邻算法的直观描述。k近邻算法中,当训练集、距离度量、k值和分类决策规则(例如:多数表决)确定后,对于任何一个新的输入实例,它所属的类唯一地确定。(注:k近邻算法的描述中标记了这四个要素的位置!)训练

2016-11-03 15:35:02 1421

转载 Learning to Rank 简介

非常好的一篇总结Learning to Rank的总结文章!转载自:http://www.cnblogs.com/kemaswill/archive/2013/06/01/3109497.html去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和

2016-10-31 16:52:17 1292

转载 分类算法:朴素贝叶斯分类(Naive Bayesian classification)

本文转载自:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html修改了作者部分书写错误!1.1、摘要      贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的

2016-10-27 17:50:02 756

转载 [logstash-input-file]插件使用详解

基本上是必用的插件!转载自:http://www.cnblogs.com/xing901022/p/4805586.html[logstash-input-file]插件使用详解  前篇介绍过Logstash的使用,本篇继续深入,介绍下最常用的input插件——file。  这个插件可以从指定的目录或者文件读取内容,输入到管道处理,也算是

2016-10-17 16:09:51 1511

转载 Logstash使用详解

在做个性搜索的事情,准备使用Logstash+elasticsearch的方式来存储用户的行为数据,看到这个篇博文写的非常好,转载过来!原文地址:http://www.cnblogs.com/xing901022/p/4802822.html[Logstash]使用详解  Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化

2016-10-17 16:04:04 11787

转载 四种聚类方法之比较

最近在做网站的个性化搜索,计划从性别模型入手,打算使用K近邻算法对未登录的用户进行性别的 预测,所以搜索了相关的算法,目前并未实践,先转载一篇博文,后续有了实践经验再写文章详述。0 前言:聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市

2016-10-14 17:36:03 34692

原创 汉诺塔递归算法的理解

hanoi tower:最近在学习python,讲函数递归的章节时以汉诺塔为例,说实话思考了很长一段时间:(⊙﹏⊙)b把代码贴出来,顺带写下自己的理解:#!/usr/bin/env python2#coding:utf-8def move(num,A,B,C): if num==1: print A,'-->',C else: mov

2016-10-12 17:19:49 2166

IntelliJ IDEA中Elasticsearch 6.1.0调试环境搭建

本例使用Intellij IDEA对Elasticsearch 6.1.0源码进行编译及调试,希望对刚接触的IDEA和Elasticsearch的同伴有帮助

2018-04-08

RS485_PELCO_P和串口通信.doc

PELCO_P RS485 PELCO_P 串口通信 PELCO_D RS485 PELCO_P 串口通信 PELCO_D

2010-11-21

用MAtlab写的不错的运动目标检测的分析平台.研究人员可借此学习在Matlab71上如何编写图形化界面的程序,同时可以将自己的代码在平台上面运行,方面地查看运行的效果.rar

用MAtlab写的不错的运动目标检测的分析平台.研究人员可借此学习在Matlab71上如何编写图形化界面的程序,同时可以将自己的代码在平台上面运行,方面地查看运行的效果.rar

2010-11-21

PCA和LDA的图像识别算法VC封装类

PCA和LDA的图像识别算法VC封装类 PCA和LDA的图像识别算法VC封装类PCA和LDA的图像识别算法VC封装类PCA和LDA的图像识别算法VC封装类

2010-11-21

人脸表情PCA的MATLAB实现.rar

人脸表情PCA的MATLAB实现.rar 人脸表情PCA的MATLAB实现.rar 人脸表情PCA的MATLAB实现.rar 人脸表情PCA的MATLAB实现.rar

2010-11-21

视频监控系统的VC++源代码  VC++实例

视频监控系统的VC++源代码,他是一个视频监控VC++实现,由于是个系统代码量比较大。欢迎学习VC++的下载,和我一起学习。QQ516068683.

2010-11-21

遗传算法.ppt 遗传算法.ppt

里面详细讲述了基本遗传算法的全过程,和几个改进遗传算法。

2010-11-21

ISP下载线及驱动程序

ISP下载线及驱动程序 51单片机自学是必备的的设备和驱动程序

2010-10-08

基于315M收发模块的简易无线串口鼠标

通常,鼠标通过PS2插口或者USB接口以有线的方式将移动的距离和方向转换成脉冲信号传送给PC。近些年来,随着无线技术的发展,出现了一种新型的无线鼠标,它脱了鼠标线的束缚,使鼠标随心所动,尤其是冬天在床上看电影时,都能享受随意操纵鼠标的乐趣。但是无线鼠标作为一种新兴产品,价格居高不下,作为一个DIY者,本着“自己动手,丰衣足食”的原则,根据鼠标的工作原理和协议,利用老旧的PS2鼠标和315M无线发射接收模块,配合PC串口,制作了一款简易的无线串口鼠标,成本只有20元左右。

2010-10-08

一步一步单片机学习实例教程

了解单片机及单片机的控制原理,控制一个LED 灯的亮和灭 跑马灯试验 用按钮控制点灯 用定时器中断闪灯,定时器中断的学习

2010-10-08

智能寻迹小车 智能车

 总体方案   整个电路系统分为检测、控制、驱动三个模块。首先利用光电对管对路面信号进行检测,经过比较器处理之后,送给软件控制模块进行实时控制,输出相应的信号给驱动芯片驱动电机转动,从而控制整个小车的运动。系统方案方框图如图1所示。

2010-10-08

51单片机ISP 下载电路.pdf

51单片机ISP 下载电路 在使用单片机时必须的使用下载线,此文档里有次下载电路的详细的原理图和具体的参数。很好用!!!

2010-10-08

LED摇摇棒的详细制作资料

16只LED发光管作为画面每一列的显示,左右摇晃起到了扫描的作用,人眼的视觉暂留现象使得看到的是一幅完整的画面。与LED点阵的显示有几分相仿。 硬件电路如下图(点击可放大), AT89S52单片机作为控制器,在它的P0、P2口接有16只以共阳的方式连接的高亮度LED,由单片机输出低电平点亮。P0口的上拉电阻RA1不能少。串在LED公共端的二极管D1会产生一定的压降,用来保护LED,经实测LED点亮时两端电压为3V左右,在LED的安全承受范围内。K1是画面切换开关,用于切换显示不同内容;S1为水银开关。

2010-10-08

BP神经网络详解与实例.ppt

详细介绍了BP算法并配有好的使用实例 神经网络的应用 详细介绍BP使用中的参数确定方法和值得注意的问题

2010-10-08

12864液晶中文资料

12864液晶中文资料,有中文字库。编程时序。各个管脚的说明及连线图

2010-05-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除