自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (2)
  • 收藏
  • 关注

原创 安装spiderkeeper

1.安装依赖包pip install scrapy scrapyd scrapyd-client spiderkeeper

2021-12-21 23:12:14 224

转载 python-elasticsearch基本用法

本文转载自:https://www.cnblogs.com/mrzhao520/p/14120991.html一、安装pip install elasticsearch pip install elasticsearch[async] #支持异步二、 实例化es对象,创建indexfrom elasticsearch import Elasticsearchfrom elasticsearch import AsyncElasticsearches = Elasticsearch(

2021-12-17 16:30:46 453

原创 conda常用命令

conda 常用命令1.查看conda版本conda -V2.获取帮助conda -h3.查看已有环境conda env list4.创建环境(新建了一个名为myenv的python3环境,已安装flask)conda create -n myenv python=3 flask5.激活环境conda activate myenv6.退出环境conda deactivate7.删除环境conda remove -n myenv --all环境安好后,自己平时多用

2021-12-16 23:20:50 761

原创 Apache superset(0.36.0)pip和源码安装

一.前言记录最新稳定版superset的安装过程。第一种是pip 安装,方便快捷。第二种是github上源码安装,优点是可以进行二次开发。我是用anaconda创建虚拟环境,之后在虚拟环境中安装的superset。#创建虚拟环境conda create -n superset python=3.6#激活环境soure activate superset二.版本python 3.6 superset 0.36.0三.pip安装superset1.步骤:# 1.安装 sup

2020-06-01 19:51:22 2140 1

原创 python读写中文文件

写入含有中文的文件。代码含义为在E盘新建一个名为a.txt,且以utf-8编码的文件,并向文件中写入‘中国’。with open('E:/a.txt','r',encoding='utf-8') as f: f.write('中国')读取含有中文的文件with open('E:/a.txt','r',encoding='utf-8') as f: while True: ...

2019-06-24 19:00:29 8156 2

原创 扩充数组维度和降维:newaxis,ravel(),flatten()

nexaxis:扩充数组维度python的numpy库中的newaxis可扩充数组的维度,放的位置不同,生成的数组形状也不同.使用nexaxis后,对原始数组不产生影响。示例如下:newaxis是None的别名,用None替换np.newaxis可达到同样的效果。ravel:降维​​​​​​​flatten:降维​​​​​​​ravel()和flatten()都能实现对...

2019-06-05 18:16:51 1287

原创 numpy.random 包中产生随机数的常用方法。random.randn(),random.rand(),random.randint()

np.random.RandomState()设置随机数种子,效果和np.random.seed()一样。当随机数种子相同时,下次运行该代码产生同样的随机数r=np.random.RandomState(0)r.rand(3,4)Out:array([[0.5488135 , 0.71518937, 0.60276338, 0.54488318], [0.4236548...

2019-06-05 14:58:25 1188

原创 jupyter notebook 常用快捷键

总结了jupyter常用的快捷键两种模式转换命令模式(Command mode )和 编辑模式(Edit mode)。 在一个cell中,按下Enter,进入Edit模式,按下Esc,进入Command 模式命令模式下的快捷键Enter:转入编辑模式 Ctrl+Home:定位到文件首 Ctrl+End:定位到文件尾 Shift+Enter:运行本单元,并定位到下一单元,新单元为...

2019-05-27 16:25:10 167

原创 python创建服从正态分布的频次直方图和KDE图

画频次直方图需要先用numpy生成服从正态分布的数据,然后用matplotlib画图。其中seaborn也是python的一个数据可视化的库。用seaborn画图比matplotlib更方便和好看点,其底层也是matplotlib.import numpy as npfrom numpy.linalg import choleskyimport matplotlib.pyplot as ...

2019-05-25 17:58:02 7375

原创 python强制类型转换astype

在进行将多个表的数据合并到一个表后,发现输出到EXCEL表的数据发生错误,数值型数据末尾都变成了0。这是因为excel数据超过11位,自动以科学计数法显示,其最大处理精度为15位,超过15位,以后数字自动变0。找了一些解决方法,发现用.astype('数据类型')还是挺方便的。我在输出时,将数值型的数据(int)转化成了字符串(str)。使用方法:df.astype('数据类型')    ...

2019-01-08 11:56:30 71350 1

转载 pandas在指定位置添加一列!简单和通用方法

本文转自我是张张的博客,文末附有原文链接相信有很多人收这个问题的困扰,如果你想一次性在pandas.DataFrame里添加几列,或者在指定的位置添加一列,都会很苦恼找不到简便的方法;可以用到的函数有df.reindex, pd.concat 我们来看一个例子:df 是一个DataFrame, 如果你只想在df的后面添加一列,可以用下面的方法:但是如果你想一次性添加两列级以上,你...

2019-01-07 18:14:29 17265

原创 python爬取国外物流网站kerry(2)

上篇文章仅爬取了kerry网站的最后一条物流信息。而且步骤较为复杂。这篇文章为爬取了最后一条物流状态和对应的最新状态时间。输出的信息包含:物流单号,货态,最新货态日期,最新货态时间等。仍然采用了requests库和Xpath来实现需求。相比较文章(一),去掉了保存文件到本地的操作。但是不知道为什么,耗时也没减少多少。import requestsfrom lxml import etree...

2019-01-04 18:20:21 897

原创 python爬取国外物流网站kerry(1)

因为乙方给的物流信息总是延迟和不准确,所以老板有时会要求我去核实货态。所以开始学习爬虫。有些步骤是自己练习用的,仅实现需求的话,可以省掉一些。(如保存html文件到本地才读取等)这篇文章仅爬取了最后一条货态。用的是requests库和Xpath来解析html网页。思路如下:用requests.get获取含有货态信息的页面 将页面下载至本地,并用Xpath解析,提取出最后一条货态信息 循...

2019-01-04 18:12:42 3640 1

原创 python学习中踩过的坑

更改列名 data.rename(columns={'原列名‘:’新列名‘},inplace=True)data为dataframe数据类型。inplace为True表示在原数据上修改。 输出程序运行时间 import timestart=time.time()......程序代码......end=time.time()print(end-start)...

2019-01-04 09:44:42 169

原创 按某一列拆分EXCEL表

        前两天接到个需求,需要把每个人的业绩制成表格单独发给个人。听说可以通过office的邮件合并功能实现,试了下效果不理想。索性自己动手写了个脚本来实现这一功能。仍然是利用python中的pandas库来实现的。#将签收表按优化师拆分成多个表import pandas as pdimport osfrom datetime import datetimetime=date...

2019-01-03 16:52:03 1508

原创 python将多个表的数据合并到一个表

工作中每周会固定处理一些表,所以用python写了些自动化脚本。欢迎交流。思路如下:1.循环读取Excel工作表。2.提取需要合并的数据字段(dataframe类型)放到一个list中。3.将list中的多个元素合并成一个Dataframe类型的数据并输出成EXCEL。#将鑫速各地区直发明细合并到一个表中import pandas as pdimport osfile=os.lis...

2019-01-03 16:34:40 23349

转载 Notepad++快捷键汇总

用Notepad++写代码,要是有一些重复的代码想copy一下,还真不容易,又得动用鼠标,巨烦人。。。。有木有简单的方法呢,确实还是有的不过也不算太好用。主要是应用键盘上的 Home 键 和 End 键。鼠标光标停留在一行的某处,按 Home 键光标会跳到行首,按End键光标会跳到行尾。鼠标光标停留在行尾,按 Shift + Home 选中一行。鼠标光标停留在行首,按 Shift + E...

2018-07-24 11:37:32 820

原创 EXCEL技巧-来自于平时积累

1."ALT+;"可忽略隐藏行(复制粘贴可见单元格)2.选中列+shift,鼠标变为十字光标时,可移动列。3.选中所有区域---F5(定位,WPS按Ctrl+F)---选空值---右键删除。4.=A2&","&B2 : 合并单元格,并用“,”隔开5.SUMIFS(求和区域,条件区域1,条件1,条件区域2,条件2........) SUM(A2:B2)求A2到...

2018-06-22 18:51:53 174

转载 SQL必知必会笔记

温习一遍简单的sql语法,把自己掌握还不够的地方,做了些笔记....1 去重复关键词,distinct    select distinct sname from student; 2 限制结果top的用法     select top 5 id from student 获取前五条记录     可以利用top来写sql分页语句 3 排序order by    select * from stud...

2018-05-19 23:41:05 114

原创 爬取github上热门项目并绘制图表

github上的项目都存储在仓库中,本篇文章编写了一个程序可自动获取这些项目的具体信息,并将信息可视化展示出来。1.使用API调用请求数据并处理API响应直接在浏览器中输入https://api.github.com/search/repositories?q=language:python&sort=stars通过API调用来请求github库中的python项目,并将这些项目按星级排序...

2018-05-17 14:36:59 1497 1

原创 pygal模拟掷骰子

    本次练习是通过python的pygal来模拟掷骰子的结果。我先创造了一个骰子类(Die),这个类的骰子都有6个面,点数分别是1~6。然后由这个类创建两个实例die1和die2。模拟的是随机投掷这两个筛子n次,输出这n次的投掷结果。为了方便分析,我输出了这n(n=1000)次投掷中,不同点数出现的次数,并绘制了条形图。具体代码如下:import matplotlib.pyplot as pl...

2018-05-17 10:56:49 696

原创 制作世界人口地图:JSON格式

本篇主要练习了下载和处理json格式的文件,并通过pygal中的地图工具来实现数据可视化。1.下载并提取相关数据    通过观察发现json格式的文件是一个很长的python列表,其中的每个元素都是一个字典,所以读取处理里面的数据时可以参考字典的处理方式。此外,因为pygal绘图时是需要国家国别码的,所以需要先写一个获取国别码的函数,如下所示:from pygal.maps.world impor...

2018-05-16 23:03:10 3794

原创 python数据分析之航空公司客户价值分析

一.引言        本篇文章是根据航空公司提供的乘客个人信息,通过建立合理的客户价值评估模型,对客户进行分群,比较分析不同客户群的特点和价值,来指定相应的营销策略,从而减少客户流失,挖掘出潜在客户,实现盈利。在这里是用K-means聚类方法来对乘客进行分群的。    源数据部分如下图所示:各属性解释如下:二.数据探索    通过调用describe()函数对数据进行一个大致的了解,主要是查看缺...

2018-05-16 19:01:42 9309 5

原创 数据可视化之绘制气温图表

前言:    这次做的是数据可视化里的一个小练习,绘制图表。数据是2014年死亡谷的气温,数据格式为csv.主要练习了怎样读取csv文件并对其进行数据可视化。1.读取csv文件里的7月份每天最高温数据,并绘制2014年7月份的高温图。import csvfrom datetime import datetimefrom matplotlib import pyplot as pltfilen...

2018-05-16 15:34:43 7446 2

原创 Kaggle入门项目,泰坦尼克号幸存者

      泰坦尼克号幸存者项目是kaggle的入门项目,我先用python的matplotlib库对数据进行了可视化,初步探索后对数据进行了清洗,然后建立了逻辑回归模型对测试集进行了预测,kaggle得分是0.76076。对数据进行统计并可视化import pandas as pdimport numpy as npdata_train=pd.read_csv("D:/Titanic/dat...

2018-05-14 10:42:20 2558

jupyternotebook

jupyternotebook

2022-03-02

文档测试测试files.7z

文档测试测试files.7z

2022-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除