自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jump的博客

要做最好的数据分析师

  • 博客(13)
  • 收藏
  • 关注

原创 Python用户消费行为分析实例

本文借鉴于知乎用户秦路的专栏https://zhuanlan.zhihu.com/p/27910430,这里只是自己理解基础上加以扩充和整理修改,丰富细节。由于手头用户消费数据的缺失我们这次采用专栏的数据进行实战。原数据在此:链接: https://pan.baidu.com/s/1IMd1ZOm2sTQSu-JKBAfy2A 提取码: dg38#首先还是常规的导入库和读取文件import ...

2018-10-10 23:44:14 8216 3

原创 关于前程无忧以‘数据分析’为关键词的招聘信息的数据分析

背景:作为个数据分析小菜鸟,深知知行合一的重要性。基于本人目前要在杭州寻找一份数据分析的初阶工作的现实考量,故决定采用前程无忧上关键词‘数据分析’和地点设置在杭州上的招聘信息作为此次数据分析的数据来源来进行实操,同时也为了能让自己更好的了解目前杭州关于数据分析岗位的招聘市场以及岗位的成长性作一个简单的前瞻和展望。方法:首先通过爬虫的request和BeatifulSoup库来进行所需数据的抓取(...

2018-09-27 20:07:02 3310 2

原创 python文件处理之批量删除文件夹内特定文件

这篇是个人生活上遇到的小问题,就是为了之前那篇html和css入门,我去淘宝买了五块钱的udacity的前端课程,大家都知道这是国外的在线授课视频,结果我兴冲冲的打开网盘下载,解压到同一个文件夹完就傻眼了。就是解压的字幕压缩包里居然有四个字幕,四个字幕!然后打开我的视频播放软件居然每次都自动载入第一个,阿拉伯文,一脸懵逼!我不懂播放软件也不想懂他选取字幕的原理,手动拿第二个视频试了下,貌似删除...

2018-10-01 09:18:14 4332 1

原创 数据可视化之matplotlib库实战(二)

本篇主要内容来自于唐宇迪-机器学习课程的数据可视化章节,此文只做个人实操和理解用。条形图和散点图此次实战的数据为美国各大电影网站对各大电影的评分。# -*- coding: utf-8 -*-import pandas as pd import numpy as np import matplotlib.pyplot as plt #数据分析时先导入这三库总没错scores = pd...

2018-09-24 23:42:11 264

原创 数据可视化之matplotlib库实战(一)

本篇主要内容来自于唐宇迪-机器学习课程的数据可视化章节,此文只做个人实操和理解用。#折线图的绘制# -*- coding: utf-8 -*-import pandas as pd #首先还是照例导入文件unrate = pd.read_csv(r'/Users/herenyi/Desktop/UNRATE.csv',encoding = 'UTF-8') #我们看看该表的前十位数据,...

2018-09-20 15:40:46 1156

原创 数据爬取之基本概念

初识html这一块我也是新手,html是一种用来描述网页的语言,也叫超文本标记语言,就是我们肉眼所看到经过浏览器解释的网页,实际背后是用html书写的文本。其中关键是html标记标签,如,一般这种标签由正反尖括号组成,里面是关键词,成对出现,代表该关键词的开始位置和结束位置,一般我们爬取数据只要找到所需关键词标签,然后截取出来即可,太细节的事可能需要前端知识来解释,以后慢慢修正。下面由网上的小实...

2018-09-18 22:47:30 10194

原创 数据可视化之各类图表绘制(待补充)

散点图的绘制散点图 (scatter diagram): 是以一个变量为横坐标,另一变量为纵坐标,利用散点的分布形态放映变量关系的一种图形。主要由matplotlib库里的plt.plot(x,y,style,color=(r,g,b)’)函数实现,主要由如上四个参数。# -*- coding: utf-8 -*-import pandas as pdimport matpotlib as...

2018-09-18 19:25:05 1528

原创 数据处理之日期处理

日期转换通常文件读取的日期都为字符型,为了计算,我们需要将这转化为日期型数据。主要用到to_datetime(x, format)函数,x是你要处理的日期型字符串,format是你要输出的日期型格式。下面我们以输出年月日格式为例:# -*- coding: utf-8 -*-import pandas as pd df = pd.read_csv(r"/Users/herenyi/Down...

2018-09-18 15:49:43 2791

原创 数据处理之数据标准化和数据分组

数据标准化数据标准化是指让所有数据等比例缩放,使之落入特定区间便于计算与分析,常用的有0-1标准化,公式为:代码实现如下:# -*- coding: utf-8 -*-import pandas as pddf = pd.read_csv(r"/Users/herenyi/Downloads/4/4.14/data.csv",encoding = 'UTF-8');df['norma...

2018-09-17 19:14:22 1909

原创 数据处理之数据过滤,合并与随机抽样

数据过滤与筛选常用的数据过滤有以下五种手段:比较运算,范围运算,空值匹配,字符匹配和逻辑匹配,下面我们就以实例来进行学习。首先还是导入我们的文件# -*- coding: utf-8 -*-import pandas as pd df = pd.read_csv(r"/Users/herenyi/Downloads/4/4.8/data.csv",sep = '|', encodi...

2018-09-17 16:59:59 2061

原创 数据处理之字符串操作

字段抽取字段抽取是指根据已知的字段抽取你想要的其中一部分组成新的列,主要是靠slice()函数来实现,主要有start和stop两个参数,我们都知道开始位置从0开始,结束位置为n-1。 下面我们以手机号码为例子做个字段截取, 首先导入文件:# -*- coding: utf-8 -*-import pandas as pd df = pd.read_csv(r'/Users/here...

2018-09-17 15:29:31 294

原创 数据处理之重复值,缺失值,空格值的处理

重复值处理去除重复值在python中主要是用drop_duplicates函数,接下来做个小示范( 这边是我的文件路径,如果你想实现此功能需要输入自己的文件路径):# -*- coding: utf-8 -*-import pandas as pd df = pd.read_csv(r'/Users/herenyi/Downloads/4/4.3/data.csv', encoding...

2018-09-17 14:38:37 1581

原创 数据处理之数据的导入与导出

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q插入链接 Ctrl + L插入代码 Ctrl + K插入图片 Ctrl + G提升标题 Ctrl + H有序列表 Ctrl + O...

2018-09-17 12:44:22 1171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除