qiuqiu1027-CSDN博客

原创 word批量调整图片大小--宏

word中选择宏，查看宏或者创建宏，不同版本的略有区别输入宏名称，默认也可在相应位置粘贴如下代码Sub 批量调整图片大小()'' 批量调整图片大小宏''Dim n ' 图片个数On Error Resume Next ' 忽略错误For n = 1 To ActiveDocument.InlineShapes.Count 'InlineShapes 类型图片 ActiveDocument.InlineShapes(n).Height = 3 * 28.345 '图片高度3

2021-02-18 00:45:23 2170

原创 AttributeError: ‘SVR‘ object has no attribute ‘SVR‘

AttributeError: ‘SVR’ object has no attribute ‘SVR’重新运行一下库的导入

2021-01-27 21:10:56 1384 1

原创 python绘图显示中文标题

python默认是英文输出，如果自己的数据中是中文标题，则图片显示时会出现小方框，加上下面这段代码再运行画图命令，即可显示中文标题#解决中文显示问题plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falsefrom pylab import *mpl.rcParams['font.sans-serif']=['SimHei']...

2021-01-14 17:37:08 1935

原创 Origin作图问题

目录1.图像边缘数据显示不全2.图例添加或更新3.隐藏的坐标轴显示4.设置颜色5.直方图柱子变细6.图层叠加7.多图层叠加调整位置（共用1个坐标轴）Origin作图，经常会遇到问题1.图像边缘数据显示不全这个现象的原因是Origin将坐标轴外的部分截掉了。双击曲线，选中Layer-display，"裁去图层框架外的数据"勾选去掉即可。2.图例添加或更新在origin中制图时，会自动添加图例，但如果在添加其它图形时，图例不好自动更新（如果在Plot Details对话框的Legends选项卡中选中

2020-09-29 21:31:37 20288

原创【Python3】DataFrame重命名列名

使用columns()重命名data.columns = ["北京","上海","广州","深圳","杭州"] data.columns = list("abcd") 使用rename方法重命名,只想改部分列名时十分好用，默认是使用新的DataFrame，可以自己选择参数inplace为True在原DataFrame上更改。data.rename(columns = {0:"北京",1:"上海"})...

2020-09-05 19:30:51 7155

原创 python jieba分词，图片打印清晰，设停用词，去英文

import numpy as npfrom PIL import Imageimport reimport jiebafrom wordcloud import WordCloud,ImageColorGenerator,STOPWORDSimport matplotlib.pyplot as plt# 打开存放项目名称的txt文件with open(r"D:\python\pra\股票预测中.txt",'r',encoding='gb18030') as f: word= (f

2020-08-30 10:41:11 957

原创 python字频、词频统计

#字频统计# -*- coding: utf-8 -*-# coding=utf-8import collections# 读取文本文件，把所有的汉字拆成一个listf = open("D:\python\pra\推荐系统1-500.txt", 'r', encoding='utf-8') # 打开文件，并读取要处理的大段文字txt1 = f.read()txt1 = txt1.replace('\n', '') # 删掉换行符txt1 = txt1.replace('，', '')

2020-08-30 10:28:44 2417 1

原创 python贝叶斯算法识别垃圾短信

概率及初始模型#!/usr/bin/env python# coding: utf-8import pandas as pdimport codecsimport numpy as npimport mathimport jieba#计算对数先验概率def getLogPrior(train): ''' totals:{'y':单词总数,'no':'单词总数'} samples:{'y':样本数,'n':样本数} logPrior

2020-07-11 11:34:50 1482 1

原创 python实现岗位薪资分析

分析方法和思路参考秦璐《七周成为数据分析师》import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir('D:\sun\作业')#设置最大显示列数pd.set_option('display.max_columns', 20)#设置最大显示行数pd.set_option('display.max_rows', 100)# 读取数据df = pd.read_csv('dataAnalyst_sql.csv', encodi

2020-07-11 11:33:53 3783 2

原创 python绘制三维动态柱状图-使用pyecharts模块

目录1. 原始数据2. 代码3. 结果当有数据想要进行横向纵向同步比较时，三维柱状图是最好的选择，目前基础的word和excel还不具备此功能，可以使用专业画图软件origin pro来做，python也是很多人首先想到的。网上搜了一下关于python绘制三维柱状图，没有找到可用的，偶然间发现一个第三方库pyecharts，不仅可以绘制三维图，还能动态展示，生成的是html文件。中文文档地址：http://pyecharts.herokuapp.com/；github项目源码仅以下方数据示例，更复杂的

2020-06-25 21:19:43 7831

原创 python常用数据作图--matplotlib用法（相关设置及常用图）

matplotlib.pyplot是一个有命令风格的函数集合，看起来和MATLAB相似。每一个pyplot函数都使一副图像做出些许改变，例如创建一幅图，在图中创建一个绘图区域，在绘图区域中添加一条线等等。在matplotlib.pyplot中，各种状态通过函数调用保存起来，以便于可以随时跟踪像当前图像和绘图区域这样的东西。== 绘图函数是直接作用于当前axes（matplotlib中的专有名词，图形中组成部分，不是数学中的坐标系）。 ==1.pyplot的plot( )函数1.1 函数参数==plt.

2020-06-04 18:29:32 3397

原创 kaggle竞赛房价预测--排名前4%

目录1. 数据读取2. 数据处理3. 建模基本模型1）LASSO回归：2）Elastic Net Regression（弹性网回归）：3）Kernel Ridge Regression（核岭回归） :4）Gradient Boosting Regression （梯度增强回归）：5）XGBoost :6）LightGBM :基本模型得分叠加模型最简单的叠加方法：平均基本模型不那么简单的叠加：添加元模型最后训练和预测Stacked Regressions : Top 4% on LeaderBoardP

2020-05-30 17:13:44 5849 2

原创 kaggle房地产价格预测

Kaggle官方房价预测的两篇教程Comprehensive data exploration with Python和House Prices EDA。

2020-05-30 14:11:27 899 1

原创 python sklearn实现中文短信垃圾分类

数据读取import pandas as pdimport jieba data = pd.read_csv(r"E:\数据\实验data\messages.csv",encoding='gbk', header=0, ,names=[“ID”,'label','text'])#print(data.head())短信分词data['cut_message'] = data["text"].apply(lambda x:' '.join(jieba.cut(x)))#使用空格连接分词.

2020-05-28 15:41:02 1562

原创 python pandas 解析（读取、写入） CSV 文件

1. 使用 pandas 读取 CSV 文件原始数据包含了公司员工的数据：NameHire DateSalarySick Days remainingGraham Chapman03/15/1450000.0010John Cleese06/01/1565000.008Eric Idle05/12/1445000.0010Terry Jones11/01/1370000.003Terry Gilliam08/12/1448000

2020-05-28 15:40:03 78804 8

原创 Python3 ID3决策树判断申请贷款是否成功

目录1. 定义生成树2. 递归产生决策树3. 调用生成树4. 绘制决策树5. 调用函数1. 定义生成树# -*- coding: utf-8 -*-#生成树的函数from numpy import * import numpy as npimport pandas as pdfrom math import log import operator # 计算数据集的信息熵(Information Gain)增益函数(机器学习实战中信息熵叫香农熵)def calcInfoEnt(d

2020-05-19 23:05:27 1198 1

原创 Apriori关联算法的python3实现（使用早餐数据）

定义函数def createC1(dataSet): C1 = [] for transaction in dataSet: for item in transaction: if not [item] in C1: C1.append([item]) #store all the item unrepeatly C1.sort() #return map(frozenset, C1)#frozen

2020-05-18 22:06:12 756

原创 python pandas数据格式转换、排序、统计、数据透视表

目录1 数据格式转换2 数据的排序2.1 单个表格列数据的排序需要用到函数：2.2 多排序问题：3 基本统计数据分析3.1 描述性统计3.2 列数据统计（最值/方差等）4数据透视操作和函数1 数据格式转换查看与转换表格某一列的数据格式：(1)查看数据类型：某一列的数据格式：df[“列属性名称”].dtype(2)数据类型转换：某一列的数据类型转换需要用到数据转换函数：df[列属性名称]=df[列属性名称].astype(“新的数据类型”)代码举例如下：import numpy as npim

2020-05-12 22:51:33 2157

原创 pandas 报错'DataFrame' object has no attribute 'as_matrix'解决办法

data = data.as_matrix(columns = None) 运行时报错==‘DataFrame’ object has no attribute ‘as_matrix’==先看pandas版本pd.__version__‘1.0.3’去pandas官网看该版本的方法说明https://pandas.pydata.org/pandas-docs/stable/refer...

2020-05-02 21:35:15 15407

原创 python语法 format字符串格式化函数

目录1. format函数可以接受不限个数参数，位置可以不按顺序。2. 设置参数：3. 传入对象：4. 数字格式化5. 填充与对齐6. 进制表示7. 大括号 {} 转义大括号printf-style formatting占位符使用%和格式字符组成，如%d、%sformat % values，格式字符串与被格式的值之间使用%隔开values只能是一个对象，或是一个和格式字符串占位符数目相等...

2020-04-30 23:33:26 495

原创 python字符串基础语法与用法

字符串string，一个个字符组成的有序序列，是字符的集合，使用单引号、双引号或三引号，字符串是不可变对象（不能在元字符串基础上修改，可以再加变量赋值计算），python3起，字符串就是Unicode类型，默认utf-81. 创建可以使用单引号或双引号来创建字符串。var1 = 'Hello World!'var2 = "Python Runoob"Python访问字符串中的值Pyt...

2020-04-30 23:17:59 479

原创 python打印/输出显示不全，只需加两行代码即可，或者另存为文件

在数组或者dataframe等格式输出或打印时，如果数据太长或者太宽只会有前后一些行列显示，中间显示省略号，想直接输出时候就能看到全部数据的话，根据需要添加显示所有行或列的代码即可1. 添加代码#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)#设置v...

2020-04-12 17:46:20 23373 3

原创更改jupyter notebook的打开路径/默认工作路径

安装之后打开jupyter notebook的快捷方式，可能会路径不对，提供2种简单的解决方法：设置默认工作目录和修改快捷方式1. 设置默认工作目录到提示的路径下找到jupyter_notebook_config.py用记事本打开删除c.NotebookApp.notebook_dir 前面的“#”符号（#表示注释的意思），然后修改为自己创建的目录路径，保存.py文件。不同操作系统的电...

2020-04-12 17:35:17 7192

原创 python导入pandas时报错：ImportError: cannot import name 'add_newdocs'

昨天更新了pandas，今天在导入pandas时报错ImportError: cannot import name ‘add_newdocs’网上查询说是很有可能是使用了anaconda作为开发环境后却自己卸载了anaconda自带的numpy，并且用pip重新安装了一个。解决方法：通过conda install numpy重新安装可能出现问题：CondaError: Cannot li...

2020-04-12 17:19:23 10186

原创 python计算灰色关联度

1. 初值法import pandas as pdimport osos.chdir(r"E:\BaiduNetdiskDownload\数据") #指定路径x=pd.read_excel("灰色关联度1.xlsx", encoding='utf8')x=x.T# 1、数据初值化处理x_mean=x.mean(axis=1)for i in range(x.index.s...

2020-04-12 17:04:06 6476 1

原创七周成为数据分析师--5 SQL

1. SQL最小化的查询结构select column from tabletable是表名，column是想要查询的字段／列，column可以用 * 代替，指代全部字段，意为从table表查询所有数据。2. where 是基础查询语法，用于条件判断。select * from DataAnalystwhere city = ‘上海’是最简化的查询语句，将所有城市为上海的职位数据...

2020-04-09 22:43:58 301

原创 python数据清洗--数据转换

1. 日期格式数据处理• Pandas中使用to_datetime()方法将文本格式转换为日期格式• dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等• 对于时间差数据,可以使用timedelta函数将其转换为指定时间单位的数值• 时间差数据,可以使用dt方法访问其常用属性import numpy as npimport pandas as pdim...

2020-03-20 22:06:15 817 1

原创 python数据清洗--数据统计

1. 数据分组运算分组计算根据某个或者某几个字段对数据集进行分组，然后运用特定的函数，得到结果• 使用groupby方法进行分组计算，得到分组对象GroupBy• 语法为df.groupby(by=)• 分组对象GroupBy可以运用描述性统计方法, 如count、mean 、median、 max和min等Group = loan_info.groupby(by = 'product...

2020-03-20 21:50:46 261

原创 python数据清洗--数据预处理

1. 重复值处理• 数据清洗一般先从重复值和缺失值开始处理• 重复值一般采取删除法来处理• 但有些重复值不能删除，例如订单明细数据或交易明细数据等df.head(5)#对价格和里程数数据进行处理# 自定义一个函数def f(x): if '$' in str(x): x = str(x).strip('$') x = str(x).replac...

2020-03-20 21:36:15 1854

原创 python数据清洗--数据表操作

代码示例参照此文章https://blog.csdn.net/qiuqiu1027/article/details/1049289801. 数据常用筛选方法• 在数据中,选择需要的行或者列• 基础索引方式,就是直接引用• ioc[行索引名称或者条件,列索引名称或者标签]• iloc[行索引位置,列索引位置]• 注意, 区分loc和ilocbasic[['户主姓名','农户生产经营类...

2020-03-20 21:05:26 265

原创 python数据清洗--文件操作

csv文件读写Excel文件读写数据库文件读写1.csv文件读写• pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL• 使用read_csv方法读取，结果为dataframe格式• 在读取csv文件时，文件名称尽量是英文• 参数较多，可以自行控制，但很多时候用默认参数• 读取csv时，注意编码，常用编码为utf-8、gbk 、gbk2312和gb18030...

2020-03-20 20:44:47 465

原创 python数据清洗--常用工具

目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中，尽可能多的使用numpy和pandas中的函数，提高数据清洗的效率NumpyNumpy中常用的数据结构是ndarray格式使用array函数创建，语法格式为array(列表或元组)可以使用其他函数例如arange、li...

2020-03-20 20:29:54 1271

原创考研英语二复习方法

这里写自定义目录标题199管理类联考复习英语二复习功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入199管理类联考复习...

2020-03-18 22:04:42 300

原创 python字符串练习

1.用户输入1个数字，判断几位数，打印每一位数字及其重复次数，依次打印每一位数字，顺序个、十、百、千…a = input(">>>")print("%d位数" % len(a))d = {}for j in range(len(a)): if a[j] not in d: d[a[j]] = 1 else: d[a[j]] ...

2020-03-18 21:59:11 376

原创 python字典练习

1.用户输入一个数字，打印每一位数字及其重复的次数a = str(input('please input a number>>>')) #转化成字符串dic = {}for i in range(len(a)): print(a[i]) #打印每一位数字 if a[i] not in dic: #value在不在字典中，不在的话数字只出现1次 ...

2020-03-18 21:46:17 804

原创 python多种语法实现依次接收用户输入的3个数，排序后打印

1.转换int后，判断大小排序，使用分支结构a = int(input(“first number>>>”))b = int(input(“second number>>>”))c = int(input(“third number>>>”))if a > b:if b > c: print(a,b,c)...

2020-03-18 21:41:50 2148

原创 python实现随机产生10个数字，取值范围[1,20]，统计重复的数字有几个，分别是什么？不重复的数字有几个，分别是什么？

方法1import randomlst = []rep_lst = [] #重复数字uniq_lst = [] #不重复数字for i in range(10): temp = random.randint(1,20) #产生随机数，闭区间 if temp in lst and temp not in rep_lst: #寻找重复数字 rep...

2020-03-18 21:38:43 9153

原创 python任意矩阵，求转置

扫描第一行，在tm的第一列从上至下附加，然后再第二列附加举例：扫描第一行1,2,3，加入到tm的第一列，然后扫描第二行4,5,6，追加到tm的第二列过程演示：#定义一个矩阵，不考虑稀疏矩阵# 1 2 3 1 4# 4 5 6 ==>> 2 5# 3 6#任意矩阵转置import datetimestart = dateti...

2020-03-18 21:20:37 1664

原创 python实现矩阵转置

matrix = [[1,2,3],[4,5,6],[7,8,9]]print(matrix)count=0for i,row in enumerate(matrix): for j,col in enumerate(row): if i < j : temp = matrix[i][j] matrix[i]...

2020-03-18 21:11:47 1205

原创 python打印杨辉三角，第m行第k个数，多种方法

1. 第m行第k个数第m行有m项，m是正整数，因此k一定不会大于m，这个需求需要保存m行的数据，那么可以使用一个嵌套结构[[],[],[]]m=int(input('行>>>'))k=int(input('第几个数>>>'))triangle=[]for i in range(m): row=[1] #所有行都以...

2020-03-18 21:08:02 867