自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

京东放养的爬虫

努力成为一个优秀的人,我在北京要活的精彩。

  • 博客(531)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 Python--pytesseract验证码识别处理实例

(linux-ubuntu系统)安装过程pytesser 调用了 tesseract,因此需要安装 tesseract,安装 tesseract 需要安装 leptonica,否则编译tesseract 的时候出现 "configure: error: leptonica not found"。sudo apt-get install tesseract-ocr之后利用pip安

2016-02-25 19:13:22 27949 2

原创 告诉你什么叫做"机器学习"-------(楼主力荐)

作者:计算机的潜意识在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这

2015-12-18 17:40:48 5048 2

转载 随机森林到底是啥?

理解随机森林        随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。下面我们再详细说一下随机森林是如何构建的。随机森林主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。1.随机选择样本    给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集

2017-01-13 14:33:33 1546

原创 先验概率与后验概率是什么?

一、先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率.事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的,是“执果寻因”问题中的“因”

2017-01-13 13:52:45 1916

原创 协同过滤推荐之slope one算法

1.示例引入比如说你在京东选购手机iphone和note7:消费者用过后,会有相关的评分。假设评分如下: 评分 iphone note7 小a 4 5 小b 4 3 小c 2 3 小d 3 ? 问题:请猜测一下小d可能会给“note7”打多少分? 思路:把两个手机的平均差值求出来,iphone减去note7的平均偏差:[(4-5)+(4-3)+(

2017-01-05 15:30:45 1450

原创 APP推广反作弊-量江湖

一、什么是移动互联网推广的下半场? 自2016年1月份起,每月一共有五万个App登上App Store商店,但是65%的人压根一个都没下,下载了一个App的人占了8.4%,什么叫下半场?我认为这就是下半场。 二、下半场:以增长黑客为核心的协作体系 官方说法增长黑客是为了实现产品增长目标而以数据驱动营销、以市场指导产品,通过技术手段将目标落地的人。说的

2016-12-08 14:34:42 5113

原创 数据分析技能提升十大建议

《数据分析技能提升十大建议》,整理自小蚊子乐园的图片版本>>http://blog.sina.com.cn/s/blog_49f78a4b0100rnyu.html。1、熟悉行业、公司业务熟悉行业、公司业务及路程,弱脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。2、明确分析目的常常有朋友问我这些数据可以做什么分析?这是典型的为了分

2016-09-18 16:32:33 853

原创 哈佛幸福课-幸福笔记

幸福笔记“我是真的什么都有,我就是想有什么我都可以买什么,但是我居然这么痛苦,所以我就知道了这个幸福跟这个钱多少真的是没关系,而且钱多的话或者名气大,如果成功,如果你没有管理好你自己往往更容易让你陷入精神的痛苦。”-张朝阳接受杨澜采访时说脑子里经常闪过一些天真的想法,比如:如果我有张朝阳那样的成就和财富,就一定会一辈子开开心心没有烦恼亚克西。虽然非常愚蠢,但我们往往还是会把

2016-09-12 17:16:53 1714

转载 浏览器野史 UserAgent列传(下)

前篇《浏览器野史 UserAgent列传(上)》六、师夷长技前面说到,微软靠Windows系统捆绑IE销售。而Windows自然也有它的对手,Linux。一个技术快速发展的时代,系统的世界里也是战火纷飞。Linux系统自从有了可视化界面,也需要浏览器呀。桌面系统KDE的缔造者们就发明了一个。真是具有跨时代意义的工具呀,好伟大呀,人们在想,它叫什么呢?但大神就是大

2016-09-08 15:01:48 1337

转载 浏览器野史 UserAgent列传(上)

某天,我做一个小项目,需要判断一下浏览器类型。简单的呀。控制台敲下:navigator.userAgent浏览器回应:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36天,这串是啥?你怎么连话都说不清楚?

2016-09-08 15:01:16 869

原创 2016年数据科学家将扮演什么角色?

数据科学家已被誉为2016年美国最好的工作,但是这一岗位的定义和所要求的技能却一直在变化。技术进步与商业需求不断驱动数据科学岗位的演化,其所处的行业也是日新月异。在本文中,我们将更加仔细地审视2016年数据科学家将扮演的角色。Dave Holtz写道,“数据科学家”常用作“一揽子头衔”(blanket title)的统称,描述一组截然不同的工作岗位。他将这个现象的原因,归结为数据科学领

2016-09-08 11:51:49 1048

转载 Linux 守护进程的实现

守护进程 Daemon守护进程,也即通常所说的 Daemon 进程,是 Linux 下一种特殊的后台服务进程,它独立于控制终端并且周期性的执行某种任务或者等待处理某些发生的事件。守护进程通常在系统引导装入时启动,在系统关闭时终止。Linux 系统下大多数服务都是通过守护进程实现的。守护进程的名称通常以 “d” 结尾,如 “httpd”、“crond”、“mysqld”等。控

2016-09-06 16:10:14 568

原创 Linux中init.d目录详解

/etc/init.d 是 /etc/rc.d/init.d 的软链接(soft link)。可以通过 ll 命令查看,如下:init.d指的是/etc/rc.d/init.d目录。本文包括3部分内容1、 Linux的引导过程2、 运行级别3、 /etc/rc.d/ 与/etc/rc.d/init.d的关系   “/etc/rc.d/init.d/目录下的脚

2016-09-06 15:53:32 5416

原创 MySQL出现Errcode:28错误提示解决办法

mysql出现Error writing file \'xxx\'( Errcode:28)的原因有很多种,下面我来总结一些常用的关于引起Errcode:28错误原因与解决方法。问题一,是log日志太大也会导致mysql提示Error writing file 'xxx'( Errcode:28)错误了,解决办法很简单。1、清理磁盘,释放空间;2、SQL语句查询的原表数据过

2016-09-06 11:37:14 12368

原创 195元爱奇艺会员只卖5元 揭秘背后黑色产业链

来源:法治周末 记者 马树娟  近两百元的视频网站年度会员资格,只需要区区数元就可以买到;而价值十余元的月度会员资格,甚至只需几分钱……  此前,湖北用户刘栋(化名)从未意识到:这些以超低价出售视频网站会员账号的QQ群、淘宝店,会同自己有什么关联;直到一次偶尔事件的出现,他才发现——原来自己的账号,也是这个产业链上被黑客觊觎的猎物。  刘栋以前购买乐视电视时,曾被赠予了两年

2016-09-06 10:44:05 3706

原创 Hive 优化-限制大作业的提交

最近有些同事些sql进行查询时,sql语句里不指定partition字段,这样直接造成hive生成Hadoop的MapReduce任务时查询的数据量巨大,从而影响整个集群的性能。经研究可以通过配置Hive参数来预防此类错误,从而达到优化的目的。在hive-site.xml中添加以下配置:hive.mapred.mode

2016-08-19 11:10:37 1356

原创 防盗链和反盗链的原理

防盗链原理http标准协议中有专门的字段记录referer一来可以追溯上一个入站地址是什么二来对于资源文件,可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段防盗链的作用在很多地方,如淘宝、拍拍、有啊等C2C网站,发布商品需要对宝贝进行描述,就需要图片存储,而为了使自己辛辛苦苦拍摄的图片不被别人调用,就需要防盗链的功能。

2016-08-15 12:22:58 21065

转载 互联网之子 – Aaron Swartz

1986年11月8日,有个叫Aaron Swartz的人在美国芝加哥伊利诺伊州出生。因为他父母创办了一个软件公司,所以,Aaron在3岁的时候就接触到了电脑,然后就着迷了。我们先通过Aaron Swartz 的青少年时期来看一下他是怎么样的一个天才:12岁的时候Aaron就创建了一个类似于Wikipedia式的网站(那时还没有Wikipedia),13岁的时候,Aaron赢得为年轻

2016-08-05 12:18:16 625

原创 vim指令简要分析及教程

有一篇vim的教程讲的不错,http://coolshell.cn/articles/5426.html,里面讲述了使用vim的四个阶段,从最开始的正常模式到指令模式,深有体会,我刚开始也是利用记事本的方式使用,但是后来发现指令模式有时候好方便,各种指令可以完成各种功能,最后就转为指令模式了。1、光标移动上:k下:j左:l 『字母L小写』右:h上一行行首

2016-08-05 12:11:58 433

转载 wget 文件下载

Linux系统中的wget是一个下载文件的工具,它用在命令行下。对于Linux用户是必不可少的工具,我们经常要下载一些软件或从远程服务器恢复备份到本地服务器。wget支持HTTP,HTTPS和FTP协议,可以使用HTTP代理。wget 可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构。这又常被称作”递归下载”。在递归下载的时候,wget 遵循Rob

2016-07-27 19:13:57 774

原创 SecureCRT rz 上传文件失败问题

有时候使用rz上传大文件会失败,以为文件越大到最后最容易乱码下次只需要 使用 rz -be 就可以了,将以ascill编码勾选。-a, –ascii-b, –binary 用binary的方式上传下载,不解释字符为ascii-e, –escape强制escape 所有控制字符,比如Ctrl+x,DEL等rar,gif等文件文件采用 -b 用binary的方式上传。文件比较大

2016-07-27 19:02:31 1850

转载 Hive:ORC与RC存储格式之间的区别

一、定义  ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。和RCFile格式相比,ORC File格式有以下优点:  (

2016-07-26 13:38:44 6001

原创 查询域名与对应ip的关系

今天找到一个网站,可以查询ip对应的域名,感觉还是很有用的,记录一下。http://tool.chinaz.com/windows的指令nslookupnslookup命令用于查询DNS的记录,查看域名解析是否正常,在网络故障的时候用来诊断网络问题。nslookup的用法相对来说还是蛮简单的,主要是下面的几个用法。 1、直接查询 这个可能大家用到最多,查

2016-07-22 16:39:23 2154

原创 Pycharm 5.0 and Pycharm 2016 的破解

安装软件之后,调整时间到2050年,然后申请三十天试用,之后退出pyCharm,然后将时间调成回来就ok了。

2016-07-22 15:01:10 626

原创 shell删除创建时间大于10天的所有文件

清理文件脚本(已经测试通过):find /tmp/hadoop-flume/s3 -mtime +10 -exec rm -rf {} \;crontab脚本:#clear 0 17 * * 5 cd /home/data/ sh clear_tmp.sh如果只有一个结点只需要再那个结点上写一个crontab脚本就可以没周定时清理了如果有多个结点,不想每一个结

2016-07-21 16:41:53 5548 1

转载 Python集合类型的操作---set

python的set和其他语言类似, 是一个无序不重复元素集, 基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交), difference(差)和sysmmetric difference(对称差集)等数学运算. sets 支持 x in set, len(set),和 for x in set。作为一个无序的集合,sets不记录元素

2016-07-20 17:45:35 418

原创 提取URL地址中的域名与端口

import urllib proto, rest = urllib.splittype("http://blog.csdn.net/djd1234567") print proto,rest host, rest = urllib.splithost(rest)print host,rest host, port = urllib.splitport(host) pr

2016-07-20 12:44:56 2426

原创 域名、IP地址、URL关系

域名是个文字形式记录的IP地址 IP地址是计算机在网络中的门牌号!URL是网页地址例如1: http://zhidao.baidu.com/question/14674128.html 是URLzhidao.baidu.com就是域名220.181.18.110 就是IP地址你通过录入URL http://zhidao.baidu.com/quest

2016-07-15 18:33:49 2400

原创 hive的order by语句分析

Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这 将会消耗很长的时间去执行。    这里跟传统的sql还有一点区别:如果指定了hive.m

2016-07-15 14:43:31 2041

原创 ipconfig指令的使用指南

ipconfig——当使用IPConfig时不带任何参数选项,那么它为每个已经配置了的接口显示IP地址、子网掩码和缺省网关值。 ipconfig /all——当使用all选项时,IPConfig能为DNS和WINS服务器显示它已配置且所要使用的附加信息(如IP地址等),并且显示内置于本地网卡中的物理地址(MAC)。如果IP地址是从DHCP服务器租用的,IPConfig将显示DHCP服务器的

2016-07-13 12:08:15 1547

原创 抓取csdn博客的所有文章url

输入博客的主域名,就可以抓取这个博客所有的文章编号。# -*- coding:utf8 -*- import stringimport urllib2import reimport timeimport randomclass CSDN_Spider: def __init__(self,url): self.myUrl = url s

2016-07-13 11:36:21 1535

转载 iostat命令使用指南

Linux系统中的 iostat是I/O statistics(输入/输出统计)的缩写,iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况,同时也会汇报出CPU使用情况。同vmstat一样,iostat也有一个弱点,就是它不能对某个进程进行深入分析,仅对系统的整体情况进行分析。iostat属于sysstat软件包。可以用yum install sysstat 直接安装。

2016-07-12 20:16:58 953

原创 HTML URL 编码

下面是用 URL 编码形式表示的 ASCII 字符(十六进制格式)。十六进制格式用于在浏览器和插件中显示非标准的字母和字符。URL 编码 - 从 %00 到 %8fASCII ValueURL-encodeASCII ValueURL-encodeASCII ValueURL-encodeæ

2016-07-07 16:58:55 1690

原创 linux lsof使用详解,查看进程使用的文件、恢复删除文件

lsof简介lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因

2016-07-07 16:21:08 2135

原创 Spark:Yarn-cluster和Yarn-client区别与联系

我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。  Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管

2016-07-07 11:59:53 1072

原创 Linux下rz/sz安装及使用方法

新搞的云服务器用SecureCRT不支持上传和下载,没有找到rz命令。记录一下如何安装rz/sz命令的方法。      一、工具说明      在SecureCRT这样的ssh登录软件里, 通过在Linux界面里输入rz/sz命令来上传/下载文件. 对于某些linux版本, rz/sz默认没有安装所以需要手工安装。      sz: 将选定的文件发送(send)到本地机器;

2016-07-01 11:13:25 1167

原创 hive什么时候会使用本地的mapreduce

如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。//开启本地mrset hive.exec.mode.local.auto=true; //设置local mr的最大输入数据量,当输入数据量小于这个值的时候会采用local mr的方式set hive.exec.mode.local.auto.inputbytes.max=500

2016-06-30 19:26:41 2571

原创 hive优化策略之控制map数和reduce数

我们可以通过控制map和reduce的数量来平衡资源达到优化程序的目的。一、map数量map的数量与你输入的文件个数和大小有关,你可以通过set dfs.block.size;来查看集群设置的文件块大小,该参数不能自定义修改。hive> set dfs.block.size;dfs.block.size=134217728例如你输入一个文件fil

2016-06-30 19:08:15 3484

转载 Hive中的数据库(Database)和表(Table)

在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。二、Hive的数据库和表先看一张草图:Hive结构从图上可以看出,Hi

2016-06-30 11:13:33 1810

原创 美团Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速

2016-06-29 21:00:39 8388 1

数电报告莫版

数电报告莫版

2012-07-12

数电课件科技

数电课件

2012-07-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除