7 djd已经存在

尚未进行身份认证

······

等级
TA的排名 1k+

随机森林到底是啥?

理解随机森林     随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。下面我们再详细说一下随机森林是如何构建的。随机森林主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。1.随机选择样本  给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集

2017-01-13 14:33:33

先验概率与后验概率是什么?

一、先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率.事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的,是“执果寻因”问题中的“因”

2017-01-13 13:52:45

协同过滤推荐之slope one算法

1.示例引入比如说你在京东选购手机iphone和note7:消费者用过后,会有相关的评分。假设评分如下: 评分 iphone note7 小a 4 5 小b 4 3 小c 2 3 小d 3 ? 问题:请猜测一下小d可能会给“note7”打多少分? 思路:把两个手机的平均差值求出来,iphone减去note7的平均偏差:[(4-5)+(4-3)+(

2017-01-05 15:30:45

APP推广反作弊-量江湖

一、什么是移动互联网推广的下半场? 自2016年1月份起,每月一共有五万个App登上App Store商店,但是65%的人压根一个都没下,下载了一个App的人占了8.4%,什么叫下半场?我认为这就是下半场。 二、下半场:以增长黑客为核心的协作体系 官方说法增长黑客是为了实现产品增长目标而以数据驱动营销、以市场指导产品,通过技术手段将目标落地的人。说的

2016-12-08 14:34:42

数据分析技能提升十大建议

《数据分析技能提升十大建议》,整理自小蚊子乐园的图片版本>>http://blog.sina.com.cn/s/blog_49f78a4b0100rnyu.html。1、熟悉行业、公司业务熟悉行业、公司业务及路程,弱脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。2、明确分析目的常常有朋友问我这些数据可以做什么分析?这是典型的为了分

2016-09-18 16:32:33

哈佛幸福课-幸福笔记

幸福笔记“我是真的什么都有,我就是想有什么我都可以买什么,但是我居然这么痛苦,所以我就知道了这个幸福跟这个钱多少真的是没关系,而且钱多的话或者名气大,如果成功,如果你没有管理好你自己往往更容易让你陷入精神的痛苦。”-张朝阳接受杨澜采访时说脑子里经常闪过一些天真的想法,比如:如果我有张朝阳那样的成就和财富,就一定会一辈子开开心心没有烦恼亚克西。虽然非常愚蠢,但我们往往还是会把

2016-09-12 17:16:53

浏览器野史 UserAgent列传(下)

前篇《浏览器野史 UserAgent列传(上)》六、师夷长技前面说到,微软靠Windows系统捆绑IE销售。而Windows自然也有它的对手,Linux。一个技术快速发展的时代,系统的世界里也是战火纷飞。Linux系统自从有了可视化界面,也需要浏览器呀。桌面系统KDE的缔造者们就发明了一个。真是具有跨时代意义的工具呀,好伟大呀,人们在想,它叫什么呢?但大神就是大

2016-09-08 15:01:48

浏览器野史 UserAgent列传(上)

某天,我做一个小项目,需要判断一下浏览器类型。简单的呀。控制台敲下:navigator.userAgent浏览器回应:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36天,这串是啥?你怎么连话都说不清楚?

2016-09-08 15:01:16

2016年数据科学家将扮演什么角色?

数据科学家已被誉为2016年美国最好的工作,但是这一岗位的定义和所要求的技能却一直在变化。技术进步与商业需求不断驱动数据科学岗位的演化,其所处的行业也是日新月异。在本文中,我们将更加仔细地审视2016年数据科学家将扮演的角色。Dave Holtz写道,“数据科学家”常用作“一揽子头衔”(blanket title)的统称,描述一组截然不同的工作岗位。他将这个现象的原因,归结为数据科学领

2016-09-08 11:51:49

Linux 守护进程的实现

守护进程 Daemon守护进程,也即通常所说的 Daemon 进程,是 Linux 下一种特殊的后台服务进程,它独立于控制终端并且周期性的执行某种任务或者等待处理某些发生的事件。守护进程通常在系统引导装入时启动,在系统关闭时终止。Linux 系统下大多数服务都是通过守护进程实现的。守护进程的名称通常以 “d” 结尾,如 “httpd”、“crond”、“mysqld”等。控

2016-09-06 16:10:14

Linux中init.d目录详解

/etc/init.d 是 /etc/rc.d/init.d 的软链接(soft link)。可以通过 ll 命令查看,如下:init.d指的是/etc/rc.d/init.d目录。本文包括3部分内容1、 Linux的引导过程2、 运行级别3、 /etc/rc.d/ 与/etc/rc.d/init.d的关系   “/etc/rc.d/init.d/目录下的脚

2016-09-06 15:53:32

MySQL出现Errcode:28错误提示解决办法

mysql出现Errorwritingfile\'xxx\'(Errcode:28)的原因有很多种,下面我来总结一些常用的关于引起Errcode:28错误原因与解决方法。问题一,是log日志太大也会导致mysql提示Errorwritingfile'xxx'(Errcode:28)错误了,解决办法很简单。1、清理磁盘,释放空间;2、SQL语句查询的原表数据过

2016-09-06 11:37:14

195元爱奇艺会员只卖5元 揭秘背后黑色产业链

来源:法治周末记者马树娟  近两百元的视频网站年度会员资格,只需要区区数元就可以买到;而价值十余元的月度会员资格,甚至只需几分钱……  此前,湖北用户刘栋(化名)从未意识到:这些以超低价出售视频网站会员账号的QQ群、淘宝店,会同自己有什么关联;直到一次偶尔事件的出现,他才发现——原来自己的账号,也是这个产业链上被黑客觊觎的猎物。  刘栋以前购买乐视电视时,曾被赠予了两年

2016-09-06 10:44:05

Hive 优化-限制大作业的提交

最近有些同事些sql进行查询时,sql语句里不指定partition字段,这样直接造成hive生成Hadoop的MapReduce任务时查询的数据量巨大,从而影响整个集群的性能。经研究可以通过配置Hive参数来预防此类错误,从而达到优化的目的。在hive-site.xml中添加以下配置:hive.mapred.mode

2016-08-19 11:10:37

防盗链和反盗链的原理

防盗链原理http标准协议中有专门的字段记录referer一来可以追溯上一个入站地址是什么二来对于资源文件,可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段防盗链的作用在很多地方,如淘宝、拍拍、有啊等C2C网站,发布商品需要对宝贝进行描述,就需要图片存储,而为了使自己辛辛苦苦拍摄的图片不被别人调用,就需要防盗链的功能。

2016-08-15 12:22:58

互联网之子 – Aaron Swartz

1986年11月8日,有个叫Aaron Swartz的人在美国芝加哥伊利诺伊州出生。因为他父母创办了一个软件公司,所以,Aaron在3岁的时候就接触到了电脑,然后就着迷了。我们先通过Aaron Swartz 的青少年时期来看一下他是怎么样的一个天才:12岁的时候Aaron就创建了一个类似于Wikipedia式的网站(那时还没有Wikipedia),13岁的时候,Aaron赢得为年轻

2016-08-05 12:18:16

vim指令简要分析及教程

有一篇vim的教程讲的不错,http://coolshell.cn/articles/5426.html,里面讲述了使用vim的四个阶段,从最开始的正常模式到指令模式,深有体会,我刚开始也是利用记事本的方式使用,但是后来发现指令模式有时候好方便,各种指令可以完成各种功能,最后就转为指令模式了。1、光标移动上:k下:j左:l 『字母L小写』右:h上一行行首

2016-08-05 12:11:58

wget 文件下载

Linux系统中的wget是一个下载文件的工具,它用在命令行下。对于Linux用户是必不可少的工具,我们经常要下载一些软件或从远程服务器恢复备份到本地服务器。wget支持HTTP,HTTPS和FTP协议,可以使用HTTP代理。wget 可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构。这又常被称作”递归下载”。在递归下载的时候,wget 遵循Rob

2016-07-27 19:13:57

SecureCRT rz 上传文件失败问题

有时候使用rz上传大文件会失败,以为文件越大到最后最容易乱码下次只需要 使用 rz -be 就可以了,将以ascill编码勾选。-a, –ascii-b, –binary 用binary的方式上传下载,不解释字符为ascii-e, –escape强制escape 所有控制字符,比如Ctrl+x,DEL等rar,gif等文件文件采用 -b 用binary的方式上传。文件比较大

2016-07-27 19:02:31

Hive:ORC与RC存储格式之间的区别

一、定义  ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。和RCFile格式相比,ORC File格式有以下优点:  (

2016-07-26 13:38:44

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!