自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大公爵的博客

生命的意义视事业而不在年寿

  • 博客(10)
  • 收藏
  • 关注

原创 Python——网络数据采集(三)

网络数据采集过程中你应该考虑的两个问题:该数据采集器需要消耗的网络流量(越少越好);该数据采集器对目标网站服务器的负载(越低越好);...

2018-12-20 12:01:42 426 1

原创 假如生活欺骗了你

生活是一种磨练,带来苦难的同时也在嘲笑幼稚。小编作为一名初出茅庐的职场菜鸟,最近刚离开一家公司,有很多感悟与体会。假如生活欺骗了你,你要记住:当你尚未成为公司正式员工时,请不要和公司谈“归属感”(比如实习生);在你尚未成为公司核心成员时,请不要和公司谈“感情”。如果你拿到一份工作轻松而薪水又很优越的offer,请先对自己进行评估,当你的工资水平远远高于你的公司贡献值时,那就是你该走的时候了...

2018-12-15 15:05:02 200

原创 SQL学习指南(一)

构建SQL语句create table person(person_id SMALLINT UNSIGNED,fname VARCHAR(20),lname VARCHAR(20),gender ENUM('M', 'F'), birth_date DATE, city VARCHAR(20), state VARCHAR(20), country VARCHAR(20), p...

2018-12-06 14:31:21 613

原创 Python——网络数据采集(二)

使用BeautifulSoup的 find() 和 findAll() 抓取目标标签下的内容:使用beautifulsoup解析后的网页通常是一种带标签的类文本形式,个人认为难点就是怎么通过层层标签的阻拦,抓取到目标内容。findAll (tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recur...

2018-12-02 15:12:31 284

原创 Python——网络数据采集(一)

使用原始的urllib库请求网站访问; 使用beautifulsoup库解析网站的元素; 考虑是否会有报错的情况,做优化。from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.baidu.com") bsObj = BeautifulSoup(html.r...

2018-12-01 15:52:15 278

原创 SPSS——连续变量的参数估计

连续变量的描述统计与参数估计根据样本数据对总体的客观规律性做出合理的估计就是统计推断,其中又分为参数估计和假设检验两大类。正态分布特征:是一条对称曲线,关于均数对称。均数被称为正态分布的位置参数 单峰,均值出最高 标准差决定线峰的矮阔与尖峭,标准差越大,个体差异越大,线峰越矮阔。 向左右延申,横轴为渐近线。 一个标准差范围下曲线面积为68% 约95%的个体取值与平均数的距离在...

2018-09-05 17:26:11 3939

原创 SPSS——连续变量的描述统计

连续变量的统计描述指标体系 集中趋势(位置统计量):均数适用于正态分布和对称分布资料;中位数适用于所有分布资料 离散趋势(尺度统计量):标准差、方差只适用于正态分布资料;四分位数适用于各种分布类型资料 分布特征:如描述正态分布的偏度系数和峰度系数 其他趋势:如可同事反应集中趋势和离散趋势的百分位数指标;描述数据的偏态分布、单峰分布和双峰分布;与异常值数据进行描述...

2018-09-04 17:41:07 5632

原创 数据挖掘思路

1.数据取样标准:可靠性,相关性,有效性。抽取数据的常见方式有:随机抽样,等距抽样,分层抽样,从起始顺序抽样分类抽样。2.数据探索:异常值分析,缺失值分析,相关性分析和周期性分析等。3.数据预处理:数据筛选,数据变量转换,缺失值处理,坏数据处理,数据标准化,主成分分析,属性选择,数据规约等。4.选择构建的模型:分类,聚类,关联规则,时序模式或者智能推荐等。5.模...

2018-08-26 10:38:12 912

原创 数据挖掘:Requests模块

发现学习Python的小伙伴都是从“爬虫”入坑的,这里就分享一篇爬虫技术常用的Requests库的文章。来自Requests库的发明者Kenneth Reitz。曾几何时,制作网络爬虫需要先导入“urllib”库,然后再进行各种套用,繁琐而复杂。现在介绍神奇的"requests"库,用大神Matt DeBoard的话说就是:“I’m going to get Kenneth Reitz’s P...

2018-08-23 17:17:06 268

原创 Python:字符串相似度计算及应运

(首先吐槽一番,发泄一下)最近初入一家数据服务公司做Intern Analyst,听名字是不是感觉很牛,然而作为实习生的小编我只能负责摘摘数据,更新一下KPI,让小编我甚是郁闷。然而,在工作中也遇到了一个小难题,问题虽小,也得有人解决不是!问题:作为数据分析师,很多人是不懂编程的,但工作中又常常需要对比数据。比如,leader第一次交给我的任务就是,对比Excel中顾客两次购买产品收货地址是否...

2018-08-19 09:47:49 1553

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除