爱吃牛肉的拉面-CSDN博客

原创安装spiderkeeper

1.安装依赖包pip install scrapy scrapyd scrapyd-client spiderkeeper

2021-12-21 23:12:14 224

本文转载自：https://www.cnblogs.com/mrzhao520/p/14120991.html一、安装pip install elasticsearch pip install elasticsearch[async] #支持异步二、实例化es对象，创建indexfrom elasticsearch import Elasticsearchfrom elasticsearch import AsyncElasticsearches = Elasticsearch(

2021-12-17 16:30:46 453

原创 conda常用命令

conda 常用命令1.查看conda版本conda -V2.获取帮助conda -h3.查看已有环境conda env list4.创建环境(新建了一个名为myenv的python3环境，已安装flask)conda create -n myenv python=3 flask5.激活环境conda activate myenv6.退出环境conda deactivate7.删除环境conda remove -n myenv --all环境安好后，自己平时多用

2021-12-16 23:20:50 761

原创 Apache superset（0.36.0）pip和源码安装

一.前言记录最新稳定版superset的安装过程。第一种是pip 安装，方便快捷。第二种是github上源码安装，优点是可以进行二次开发。我是用anaconda创建虚拟环境，之后在虚拟环境中安装的superset。#创建虚拟环境conda create -n superset python=3.6#激活环境soure activate superset二.版本python 3.6 superset 0.36.0三.pip安装superset1.步骤：# 1.安装 sup

2020-06-01 19:51:22 2140 1

原创 python读写中文文件

写入含有中文的文件。代码含义为在E盘新建一个名为a.txt，且以utf-8编码的文件，并向文件中写入‘中国’。with open('E:/a.txt','r',encoding='utf-8') as f: f.write('中国')读取含有中文的文件with open('E:/a.txt','r',encoding='utf-8') as f: while True: ...

2019-06-24 19:00:29 8156 2

原创扩充数组维度和降维：newaxis,ravel(),flatten()

nexaxis:扩充数组维度python的numpy库中的newaxis可扩充数组的维度，放的位置不同，生成的数组形状也不同.使用nexaxis后，对原始数组不产生影响。示例如下：newaxis是None的别名，用None替换np.newaxis可达到同样的效果。ravel:降维flatten:降维ravel()和flatten()都能实现对...

2019-06-05 18:16:51 1287

原创 numpy.random 包中产生随机数的常用方法。random.randn(),random.rand(),random.randint()

np.random.RandomState()设置随机数种子,效果和np.random.seed()一样。当随机数种子相同时，下次运行该代码产生同样的随机数r=np.random.RandomState(0)r.rand(3,4)Out:array([[0.5488135 , 0.71518937, 0.60276338, 0.54488318], [0.4236548...

2019-06-05 14:58:25 1188

原创 jupyter notebook 常用快捷键

总结了jupyter常用的快捷键两种模式转换命令模式（Command mode ）和编辑模式（Edit mode）。在一个cell中，按下Enter,进入Edit模式，按下Esc,进入Command 模式命令模式下的快捷键Enter：转入编辑模式 Ctrl+Home：定位到文件首 Ctrl+End：定位到文件尾 Shift+Enter：运行本单元，并定位到下一单元，新单元为...

2019-05-27 16:25:10 167

原创 python创建服从正态分布的频次直方图和KDE图

画频次直方图需要先用numpy生成服从正态分布的数据，然后用matplotlib画图。其中seaborn也是python的一个数据可视化的库。用seaborn画图比matplotlib更方便和好看点，其底层也是matplotlib.import numpy as npfrom numpy.linalg import choleskyimport matplotlib.pyplot as ...

2019-05-25 17:58:02 7375

原创 python强制类型转换astype

在进行将多个表的数据合并到一个表后，发现输出到EXCEL表的数据发生错误，数值型数据末尾都变成了0。这是因为excel数据超过11位,自动以科学计数法显示,其最大处理精度为15位,超过15位,以后数字自动变0。找了一些解决方法，发现用.astype('数据类型')还是挺方便的。我在输出时，将数值型的数据（int)转化成了字符串(str)。使用方法：df.astype('数据类型') ...

2019-01-08 11:56:30 71350 1

转载 pandas在指定位置添加一列！简单和通用方法

本文转自我是张张的博客，文末附有原文链接相信有很多人收这个问题的困扰，如果你想一次性在pandas.DataFrame里添加几列，或者在指定的位置添加一列，都会很苦恼找不到简便的方法；可以用到的函数有df.reindex, pd.concat 我们来看一个例子：df 是一个DataFrame，如果你只想在df的后面添加一列，可以用下面的方法:但是如果你想一次性添加两列级以上，你...

2019-01-07 18:14:29 17265

原创 python爬取国外物流网站kerry（2）

上篇文章仅爬取了kerry网站的最后一条物流信息。而且步骤较为复杂。这篇文章为爬取了最后一条物流状态和对应的最新状态时间。输出的信息包含：物流单号，货态，最新货态日期，最新货态时间等。仍然采用了requests库和Xpath来实现需求。相比较文章（一），去掉了保存文件到本地的操作。但是不知道为什么，耗时也没减少多少。import requestsfrom lxml import etree...

2019-01-04 18:20:21 897

原创 python爬取国外物流网站kerry（1）

因为乙方给的物流信息总是延迟和不准确，所以老板有时会要求我去核实货态。所以开始学习爬虫。有些步骤是自己练习用的，仅实现需求的话，可以省掉一些。(如保存html文件到本地才读取等)这篇文章仅爬取了最后一条货态。用的是requests库和Xpath来解析html网页。思路如下：用requests.get获取含有货态信息的页面将页面下载至本地，并用Xpath解析，提取出最后一条货态信息循...

2019-01-04 18:12:42 3640 1

原创 python学习中踩过的坑

更改列名 data.rename(columns={'原列名‘：’新列名‘}，inplace=True)data为dataframe数据类型。inplace为True表示在原数据上修改。输出程序运行时间 import timestart=time.time()......程序代码......end=time.time()print(end-start)...

2019-01-04 09:44:42 169

原创按某一列拆分EXCEL表

前两天接到个需求，需要把每个人的业绩制成表格单独发给个人。听说可以通过office的邮件合并功能实现，试了下效果不理想。索性自己动手写了个脚本来实现这一功能。仍然是利用python中的pandas库来实现的。#将签收表按优化师拆分成多个表import pandas as pdimport osfrom datetime import datetimetime=date...

2019-01-03 16:52:03 1508

原创 python将多个表的数据合并到一个表

工作中每周会固定处理一些表，所以用python写了些自动化脚本。欢迎交流。思路如下：1.循环读取Excel工作表。2.提取需要合并的数据字段（dataframe类型）放到一个list中。3.将list中的多个元素合并成一个Dataframe类型的数据并输出成EXCEL。#将鑫速各地区直发明细合并到一个表中import pandas as pdimport osfile=os.lis...

2019-01-03 16:34:40 23349

转载 Notepad++快捷键汇总

用Notepad++写代码，要是有一些重复的代码想copy一下，还真不容易，又得动用鼠标，巨烦人。。。。有木有简单的方法呢，确实还是有的不过也不算太好用。主要是应用键盘上的 Home 键和 End 键。鼠标光标停留在一行的某处，按 Home 键光标会跳到行首，按End键光标会跳到行尾。鼠标光标停留在行尾，按 Shift + Home 选中一行。鼠标光标停留在行首，按 Shift + E...

2018-07-24 11:37:32 820

原创 EXCEL技巧-来自于平时积累

1."ALT+;"可忽略隐藏行（复制粘贴可见单元格）2.选中列+shift,鼠标变为十字光标时，可移动列。3.选中所有区域---F5(定位，WPS按Ctrl+F)---选空值---右键删除。4.=A2&","&B2 : 合并单元格，并用“，”隔开5.SUMIFS(求和区域，条件区域1，条件1，条件区域2，条件2........） SUM（A2:B2）求A2到...

2018-06-22 18:51:53 174

转载 SQL必知必会笔记

温习一遍简单的sql语法，把自己掌握还不够的地方，做了些笔记....1 去重复关键词，distinct select distinct sname from student; 2 限制结果top的用法 select top 5 id from student 获取前五条记录可以利用top来写sql分页语句 3 排序order by select * from stud...

2018-05-19 23:41:05 114

原创爬取github上热门项目并绘制图表

github上的项目都存储在仓库中，本篇文章编写了一个程序可自动获取这些项目的具体信息，并将信息可视化展示出来。1.使用API调用请求数据并处理API响应直接在浏览器中输入https://api.github.com/search/repositories?q=language:python&sort=stars通过API调用来请求github库中的python项目，并将这些项目按星级排序...

2018-05-17 14:36:59 1497 1

原创 pygal模拟掷骰子

本次练习是通过python的pygal来模拟掷骰子的结果。我先创造了一个骰子类（Die），这个类的骰子都有6个面，点数分别是1~6。然后由这个类创建两个实例die1和die2。模拟的是随机投掷这两个筛子n次，输出这n次的投掷结果。为了方便分析，我输出了这n（n=1000）次投掷中，不同点数出现的次数，并绘制了条形图。具体代码如下：import matplotlib.pyplot as pl...

2018-05-17 10:56:49 696

原创制作世界人口地图：JSON格式

本篇主要练习了下载和处理json格式的文件，并通过pygal中的地图工具来实现数据可视化。1.下载并提取相关数据通过观察发现json格式的文件是一个很长的python列表，其中的每个元素都是一个字典，所以读取处理里面的数据时可以参考字典的处理方式。此外，因为pygal绘图时是需要国家国别码的，所以需要先写一个获取国别码的函数，如下所示：from pygal.maps.world impor...

2018-05-16 23:03:10 3794

原创 python数据分析之航空公司客户价值分析

一.引言本篇文章是根据航空公司提供的乘客个人信息，通过建立合理的客户价值评估模型，对客户进行分群，比较分析不同客户群的特点和价值，来指定相应的营销策略，从而减少客户流失，挖掘出潜在客户，实现盈利。在这里是用K-means聚类方法来对乘客进行分群的。源数据部分如下图所示：各属性解释如下：二.数据探索通过调用describe()函数对数据进行一个大致的了解，主要是查看缺...

2018-05-16 19:01:42 9309 5

原创数据可视化之绘制气温图表

前言：这次做的是数据可视化里的一个小练习，绘制图表。数据是2014年死亡谷的气温，数据格式为csv.主要练习了怎样读取csv文件并对其进行数据可视化。1.读取csv文件里的7月份每天最高温数据，并绘制2014年7月份的高温图。import csvfrom datetime import datetimefrom matplotlib import pyplot as pltfilen...

2018-05-16 15:34:43 7446 2

原创 Kaggle入门项目，泰坦尼克号幸存者

泰坦尼克号幸存者项目是kaggle的入门项目，我先用python的matplotlib库对数据进行了可视化，初步探索后对数据进行了清洗，然后建立了逻辑回归模型对测试集进行了预测，kaggle得分是0.76076。对数据进行统计并可视化import pandas as pdimport numpy as npdata_train=pd.read_csv("D:/Titanic/dat...

2018-05-14 10:42:20 2558

weixin_42036641的博客