自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 问答 (1)
  • 收藏
  • 关注

原创 pandas agg apply, transform的区别

agg,apply 和transform 都可以对dataframe进行运算,下面对这三种方法做一下比较:作用:dataframe.agg():只做聚合操作dataframe.apply() 作用对象是dataframedataframe.transform()对dataframe的每个series做transform操作,返回的结构与原dataframe一致可接受的func类型:ag...

2019-04-22 15:51:42 4485

原创 sql row_number 用法

row_number 语句可将select的语句按某一列排序并赋予其连续的编号,示例如下:语法:ROW_NUMBER () OVER ([ <partition_by_clause> ] <order_by_clause>) 。备注:ORDER BY 子句可确定在特定分区中为行分配唯一 ROW_NUMBER 的顺序。参数:<partition_by_claus...

2019-04-10 11:19:45 6963

原创 sql的case when then的用法

case when then else end 语句一般用于数据分类标记,比如将一组年龄数据根据年龄段分为’青年’,‘中年’,‘老年’举个栗子:#建立一张成绩单+------+------+---------+| s_id | c_id | s_score |+------+------+---------+| 01 | 01 | 80 || 01 | 02 ...

2019-04-10 09:46:52 344

原创 利用pandas对womenclothing 的列进行处理与可视化

import pandas as pdimport matplotlib.pyplot as pltfrom pylab import *#设置显示行数和列数pd.set_option('display.max_rows',25000)pd.set_option('display.max_columns',30)#data=pd.read_csv('wc.csv')#查看数据基本...

2019-04-09 10:10:52 127

原创 假设检验的一般步骤(t检验/z检验)

假设检验的一般步骤:第一步.:提出原假设(h0)和备择假设h1第二步: 确定显著水平消费类:0.05质量控制:0.01民意调查:0.1第三步;选择检验统计量(z检验和t检验)z检验使用场景:(正态分布,大样本(样本容量>30)/总体标准差已知)z值计算:z=(x-μ)/s/根号nx是检验样本的平均数;μ是已知总体的平均数;S是总体的标准差;n是样本容量。使用方法...

2019-04-08 12:00:37 22777

原创 置信区间 VS 置信水平

经典统计学的核心思想是用样本估计总体,当样本足够大时,样本的均值方差等指标就会无限逼近整体的真实情况,且样本总是围绕在整体的平均值周围呈正态分布置信区间即是用样本平均值估算总体平均值种方法。如上图:x轴表示样本平均值y轴表示样本平均值对应的概率μ是总体的平均值α是总体的方差所有的样本平均值围绕在总体平均值两侧,并呈正态分布置信区间描述的是:我们估计的总体平均值与真实的总体平均值...

2019-04-03 17:04:16 6425

原创 mysql撤销操作,事务,回滚

对mysql数据库数据操作时经常需要撤销操作,主要用到事务和回滚用法是:1. start transaction; #开启事务2. set savepoint +回滚点名称(name); #设置回滚点名称3. balabala 数据处理balabala; #正常的数据处理4. rollback to 回滚点名称/commit; #commit 表示确认提交,将3的数据更新提交到数据...

2019-04-03 14:58:34 8435

原创 Python 利用nltk,jieba库统计词频并导入csv文件

利用Python的nltk模块进行词频统计:示例的negreview.txt 链接见:链接:https://pan.baidu.com/s/10XJiJtzjhVauGJ8vtyxDIQ提取码:g65t这是一段女装差评文本,我们需要统计词频并写入csv文件:import nltkimport jiebafrom nltk.corpus import stopwordsimport ...

2019-04-03 11:38:17 2547

原创 利用jieba库进行中文文本分析词频统计 并存储到字典里

利用jieba库进行中文文本分析 并存储到字典里:import jiebawords=jieba.lcut(''' 我与父亲不相见已二年余了,我最不能忘记的是他的背影。那年冬天,祖母死了,父亲的差使也交卸了,正是祸不单行的日子,我从北京到徐州,打算跟着父亲奔丧回家。到徐州见着父亲,看见满院狼藉的东西,又想起祖母,不禁簌簌地流下眼泪。父亲说,“事已如此,不必难过,好在天无绝人之路!”  回家变...

2019-04-01 16:34:36 2500

原创 Python3 绘制简单的散点图

import pandas as pdimport matplotlib.pyplot as plt#设置显示的行列数pd.set_option('display.max_rows',25000)pd.set_option('display.max_columns',30)#读取数据data=pd.read_csv('wc0329.csv')#利用groupby聚合,并排序...

2019-04-01 14:14:35 1042

原创 mysql和Python3 连接 pymysql 模块

安装模块:pip install pymysqlimport pymysqlconn=pymysql.connect(host='127.0.0.1',port=3306, user='root', passwd='12345qq',db='project') #建立连接 host:'127.0.0.1,不用联网也可访问数据库 port:2206 user:登录mysql的用户名,...

2019-04-01 11:30:00 253

原创 kaggle women clothing 项目

项目kaggle地址:https://www.kaggle.com/nicapotato/womens-ecommerce-clothing-reviews分析思路:首先通过观察数据得知,这是女装销售情况及评价的数据,变量有商品ID,服装所属的三级类目,客户年龄,评分,评论标题,评论内容。变量分类:我们把这几个变量分为三大类:商品变量,客户变量,反馈变量商品变量包括 clothing i...

2019-03-31 16:23:06 1430

原创 python 词云 wordcloud

试了一下在线的一些词云,很多对文本大小有限制,然后发现Python有wordcloud模块。示例文本里有136W单词,加载速度也没有很慢wordcoud的所有参数见:https://blog.csdn.net/u010309756/article/details/67637930简单实例#导入模块from wordcloud import WordCloud,ImageColorGen...

2019-03-27 15:11:30 185

原创 将csv 文件存入mysql 报错The MySQL server is running with the --secure-file-priv option so it cannot execute

系统:windows10mysql版本:mysql 8.0step1:用create语句创建database和tablestep 2: 用下列语句将 csv 文件写入table(#表注释)load data infile ‘C:\Users\tsing\Desktop\wc.csv’ #1into table project.wc character set gb2312 #2fie...

2019-03-21 19:07:50 70968 18

原创 Python +正则表达式爬取豆瓣页面邮箱

python + 正则爬取豆瓣页面的邮箱:import requestsimport rehtml=requests.get('https://www.douban.com/group/topic/124565040/?start=0')pattern=re.compile(r'[a-zA-Z0-9-_\.]+@[a-zA-Z0-9-_]+\.[a-zA-Z0-9-_]+')res=r...

2019-03-18 10:41:58 508

原创 mysql update +多表联结

以这三张表为例:表1 school.course;±-----±-------±-----+| c_id | c_name | t_id |±-----±-------±-----+| 01 | 语文 | 02 || 02 | 数学 | 01 || 03 | 英语 | 03 |±-----±-------±-----+3 rows in set...

2019-03-16 15:07:58 429

原创 爬虫项目3

from urllib import requestfrom urllib.parse import urlencodeimport requestsimport refrom bs4 import BeautifulSoupimport csvproxy={'http':'210.22.176.146'}proxy_support=request.ProxyHandler(pro...

2019-03-12 11:45:45 458

原创 pandas 的分组与聚合运算/groupby/transform/apply/agg

dataframe.groupby():用途:对一个dataframe或series进行分组计算操作基本语法: DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)参数释义:by : 计算方式by=函数:对df/s...

2019-03-08 09:38:49 3800

原创 pandas数据清洗与计算(二)

dataframe.duplicated(subset=None,keep=‘first’)函数检查是否是重复行,返回布尔值:subset=None:str,传入列名/列名列表,可检查指定列是否存在重复值keep: {‘first’, ‘last’, False}, default ‘first’keep=first: 当出现重复行时,第一次出现的数据不算重复(false)keep=l...

2019-03-06 19:42:31 232

原创 pandas数据清理和计算(一)

pandas数据清理和计算1. dataframe.merge:根据一个或多个键将不同dataframe的列连接起来语法:DataFrame.merge(left,right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes...

2019-03-06 14:18:49 443

原创 pandas timeseries 时间序列

1. pandas.to_datetime(): 将对象转换为datetime对象:语法:pandas.to_datetime(arg, dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, origin=‘uni...

2019-03-05 11:00:22 2178

原创 pandas read_csv 主要参数详解

用途:读取CSV(逗号分割)文件到DataFrame,也支持文件的部分导入和选择迭代语法:pandas.read_csv(filepath_or_buffer, sep=’, ‘, delimiter=None, header=‘infer’, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mang...

2019-03-04 16:15:07 866 1

原创 Python dataframe 相关系数和协方差

相关系数和协方差:一.协方差只表示线性相关的方向,取值正无穷到负无穷。也就是说,协方差为正值,说明一个变量变大另一个变量也随之变大(正相关);取负值说明一个变量变大另一个变量变小(负相关),取0说明两个变量没有相关关系。注意:协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。二.相关系数不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。也就是说,相关...

2019-03-02 17:39:13 7848

原创 pandas dataframe汇总和计算方法

Dataframe汇总计算的主要方法有:Pandas 统计的一些常用方法:frame.idxmax(): 列的最大值 输出每列最大值的索引np.random.seed(38754)data=np.random.randint(0,15,15).reshape(5,3)frame=DataFrame(data,index=['a','b','c','d','e'],columns=[...

2019-03-02 17:06:49 12762

原创 Python Pandas/ pandas.dataframe/dataframe 的主要方法(一)

Dataframe:dataframe:二维的表格型数据结构,是组合的series。dataframe 的每一行和每一列都是一个series。语法结构:DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)data:数组(多维),可迭代对象,字典嵌套或dataframeindex:索引名称,如不传入,则...

2019-03-02 14:54:38 1752

原创 Python pandas,pandas.series,series的主要方法

Pandas 安装:pip install pandasnumpy 和pandas 区别:numpy :生成的是ndarray,数组pandas:基于numpy,生成两种对象,一种是series,一种是dataframe。series: 一维数组类似array,series=索引+数据。区别是Series能保存不同种数据类型,字符串、boolean值、数字等,而numpy只能存储同类型数...

2019-03-02 10:36:53 6652 1

原创 python numpy库/数组

数组和列表的区别:数组:数组是用于储存多个相同类型数据的集合列表:一个列表内可包好多种数据类型数组:一旦创建,指定位置元素不能删除,除非重建数组对象列表:列表内元素可以删除,删除后,后续元素会前移数组库名:numpy 别名:np安装:pip install numpy生成的数据类型:&amp;amp;amp;amp;amp;amp;lt;class ‘numpy.ndarray’&amp;amp;amp;amp;amp;amp;gt;1. ndarray的创建:语法结构

2019-03-01 18:11:04 293

原创 Python正则表达式/分组/优先级

正则表达式:参考链接:https://www.cnblogs.com/zjltt/p/6955965.html模块:re用途:用于模糊匹配正则表达式的符号一.元字符. 通配符:可代指任意一个符号,除换行符import reprint(re.findall('a..x','scdcdabnxmn'))#输出:['abnx']^ 在字符串开头匹配import repr...

2019-03-01 09:13:28 2251

原创 Python json模块

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。JSON的数据格式其实就是python里面的字典格式.json 有四个主要方法:dump,dumps,loads,loadjson.dumps(): 把数据类型转换成字符串:#实例import jsonprint(type(json.dumps(1)))#输出:&lt;...

2019-02-28 22:41:55 223

原创 python 装饰器

1. 闭包函数概念:函数内部定义的函数;引用了外部变量但非全局变量。#示例def count(): a = 1 b = 1 def sum(): c = 1 return a + c # a - 自由变量 return sum2. 高阶函数:函数参数是一个函数,返回一个函数名函数参数是一个函数,返回一个函数名def f...

2019-02-28 22:12:31 71

原创 python 迭代器/生成器

**迭代器**可迭代对象:可调用__iter__()方法的对象,大部分对象都是可迭代的string='hello world'print(string.__iter__())输出:&lt;str_iterator object at 0x0311CB10&gt;容器:•容器是一系列元素的集合,str、list、set、dict、file、sockets对象都可以看作是容器,容器都...

2019-02-28 18:42:04 131

原创 Python的类/类的继承/多态/封装

类=属性+方法Classname.__dict__查看类属性Classname.dir查看类方法#创建Dog类,类名首字母大写class Dog: def __init__(self,name,gender,age): print('start') self.mingzi=name self.xingbie=gender ...

2019-02-28 14:40:03 112

原创 Python random模块常用方法

random.randint(a,b) 生成1个a-b之间的随机整数import randomnum=random.randint(1,100)print(num)输出:100random.seed(int): 传入一个int,生成随机数的种子,在这个种子下生成的随机数是固定的import randomseed=random.seed(138733)num=rando...

2019-02-28 10:06:56 388 4

原创 python模块之datetime模块

datetime 模块提供的类有date,time,datetime,timedelta,tzinfo。一. date类:date对象的结构:datetime.date(year, month, day)生成date对象:import datetimefrom datetime import datet=datetime.date(2017,4,29)print(t)输出:...

2019-02-27 22:50:48 244

原创 python模块之time模块

time.time()方法:返回当前时间的时间戳import timeprint(time.time())输出:1547873005.0744386time.localtime(): 返回当前时间import timeprint(time.localtime())输出:time.struct_time(tm_year=2019, tm_mon=1, tm_mday=19...

2019-02-27 21:45:18 267

原创 Python利用numpy.random模块生成随机数的方法

numpy.random.rand(m,n,p,q…)生成0到1之间的n个随机数,参数是shape#传入单个参数import numpy as npdata=np.random.rand(3)print(data)输出:[0.42487743 0.92537519 0.53686567]#传入两个参数:输出一个值在0-1之间的三行四列数组import numpy as np...

2019-02-27 16:32:38 2500

原创 Python一些函数 map/filter/reduce 持续更新...

map函数(映射函数):语法:map(function, iterable, …)iterable:一个或多个序列function:函数(普通函数,匿名函数)对可迭代对象依次使用function 函数,方便多次重复调用#实例1:func为普通函数def func(n): m=0 if n &amp;lt;100: m+=n return mres...

2019-02-27 14:40:01 212

原创 Python匿名函数/lambda

关键字:lambdafunc=lambda x: 简单逻辑实例:单个参数:func=lambda x: x+1print(func(10))输出:11多个参数:func=lambda x,y,z:(x+1,y+1,z+1)print(func(1,2,3))输出:(2, 3, 4)匿名函数+逻辑判断func=lambda x: x+1 if x&gt;2 else ...

2019-02-27 14:14:09 140

原创 python 递归函数/尾递归/递归溢栈

定义:递归函数就是在函数内部调用自己递归需要一个结束条件:例如 if…… return基本结构:def func():…return func示例:叠乘计算:使用普通函数:def func(n): a=1 for i in range(2,n+1): a*=i return aprint(func(5))输出:12...

2019-02-27 13:40:40 765

原创 python global函数/全局变量/局部变量

局部变量只能在子程序可调用,不可跨程序调用def fun(): a = 10 print(a)def fun1(): b=20 c=a+b print(c)print('调用函数fun')fun()print('调用函数fun1')fun1()输出:调用函数fun10调用函数fun1Traceback (most recent...

2019-02-27 11:29:19 633 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除