自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 pandas 处理把一列的数据转换成列名

今天又碰到一个表格处理的问题,特写篇文章记录一下处理过程。原始表格如下图:想变成目标格式如下:下面是代码import pandas as pdcsv = pd.read_excel(r'C:\Users\likai\Desktop\价格.xlsx')csvdf = csv[['date','region','price']]dz = df.groupby(['date','region'], as_index=False).sum()# 上面 as_index=False 重.

2020-12-29 11:17:00 8208 2

原创 Python读取Excel文件并写入数据库

我有一个Excel表格, 想整体作为一张表写入数据库,方便以后处理。想法是这样:先用pandas读取Excel表格,将表格内容转化成一个dataframe数据,然后将这个df数据整体写入数据库。刚开始的时候,没弄清楚,到底要不要先在数据库中建好表, 还有相应字段…1. 读取Excel表格数据需要的模块pandassqlalchemypymysql我的Excel文件my....

2019-04-10 12:00:01 14642 4

原创 使用pandas生成excel表格

需要使用的python模块安装模块pip install pandaspip install numpypip install openpyxlimport pandas as pdimport numpy as npdata = np.arange(1,101).reshape((10,10))data_df = pd.DataFrame(data)data_df...

2019-04-09 17:59:02 44039

原创 pandas 合并表格时出现unnamed列,和顺序被打乱的问题

pandas 合并表格sheet Sorting because non-concatenation axis is not aligned.

2022-06-28 11:10:14 2260 1

原创 requests链接是直接点击下载时的

python直接下载链接内容

2022-06-17 10:10:01 289

原创 pandas按条件修改列的值

今天在处理表格的时候碰到要按一定的条件修改pandas某列的值,感觉突然不会了,特此来整理一下加强记忆。表格简单来说大概长上面这个样子,因为要处理考试成绩的内容,所以需要把中文全部修改成0或者其他直接上代码,做个记录import pandas as pdcsv = pd.read_excel(r'C:\Users\likai\Desktop\学习情况详表(2020.12.25).xlsx', dtype=str, skiprows=1, sheet_name=5)data = csv.c.

2020-12-25 15:16:20 17624 3

原创 python+selenium 处理需要确定证书对话框

场景如下:使用selenium 处理网页时, 碰到了跳出证书的情况如下图 所见:当使用get请求网页的时候, 由于网页一直处于跳出状态, 无法使用页面内容来进行操作, 只能卡死在这一步考虑到只需要在当前页面用鼠标点击或者键盘回车即可;但是selenium单独无法完成, 由于程序是从上往下运行, 所以考虑引入多线程的特性, 在get的同时, 使用多线程运行键盘操作我的尝试如下:使用到的包: selenium, pynput, threading, timefrom selenium.

2020-08-19 14:50:15 2071

原创 pyecharts 在地图上打点碰到的坑

版本pyecharts v1 版本碰到的问题由于自己的数据 和pyecharts地图数据不一致, 当输入pyecharts不存在的地点时Geo就会报错, 而且还不提示是哪一个地点造成的, 此问题困扰了我好几天解决办法看官方文档的时候注意了下面一句话Geo 图的坐标引用自 pyecharts.datasets.COORDINATES,COORDINATES 是一个支持模糊匹...

2020-03-04 15:02:06 1107 2

原创 pyecharts_v1版本: 画折线图

最近由于工作需要,需要使用pyecharts作图,了解到v0.5版本 和v1版本有很大的区别,且v0.5版本已经停止更新, 你懂得,所以重新学习使用v1版本;本篇则使用v1.6.2版本。安装:采用最简单的方式,如果太慢,请使用清华源;pip install pyecharts地图包的下载地图包下载比较麻烦,建议搜搜网上攻略,选择适合自己的使用:要求: 数据库数据出折...

2020-02-27 17:41:28 1978

原创 使用openpyxl时遇到的坑

最近在用python处理Excel表格是遇到了一些问题1, xlwt最多只能写入65536行数据, 所以在处理大批量数据的时候没法使用2, openpyxl 这个库, 在使用的时候一直报错, 看下面代码from openpyxl import Workbookimport datetimewb = Workbook()ws = wb.active ws['A1'] = 42 ...

2020-01-08 10:07:29 12926 2

原创 python爬虫: requests爬取flash播放页面的信息

我们通过查看知道flash类型的网页采取文件格式是amf类型的AMF(Action Message Format) 是Flash与服务端通信的一种常见的二进制编码模式,其传输效率高,可以在HTTP层面上传输。python 要和AMF 交互需要一个pyamf 模块1, 下载pyamfpyamf点击下载2, 安装的时候发现这个版本不适合我的版本, 经过搜索, 发现了一个解决办法安装P...

2019-11-16 14:44:06 3993 1

原创 pyamf 安装问题

经查询PyAMF最新版本为0.8.0,项目已经两年多未更新了,并且官网都没了,现在可在:https://pypi.python.org/pypi/PyAMF下载;PyAMF只支持32位Python,由于我系统是64位并安装的Python是64位,不想重新安装32位的,找到如下办法:pip install Py3AMF如果不报错, 恭喜你, 安装成功import pyamf# 不...

2019-11-16 11:58:11 976

原创 python:构建代理ip池

上篇文章写了一下如何验证代理ip 是否有效,这一篇实现可以爬取代理ip网站的IP,验证有效并写入我的本地文件import timefrom selenium import webdriverimport requestsip_file = r'C:\Users\Administrator\Desktop\代理IP.txt'ip_url = "https://www.zdaye....

2019-11-01 18:56:42 412

原创 python : 快速验证代理ip是否有效

没有预算购买收费的ip, 只好使用免费的ip, 这时候验证其是否是有效的ip就变的有必要了实验了几种方法, 最好发现了 我所知道的最方便的方法说明:利用的http://icanhazip.com/返回的IP进行校验,如返回的是代理池的IP,说明代理有效,否则实际代理无效import requestsrequests.adapters.DEFAULT_RETRIES = 3res1 =...

2019-10-31 14:56:22 2609

原创 python的微信自动化失效了吗?

今天突然发现无法正常登录网页版微信了, 那么基于这种Web api 的bot方案都没用了, 是不是没办法用python做微信的自动化了 ??还有其他的办法吗, 有大佬知道的可以告知一下?...

2019-10-25 14:47:03 2195 1

原创 python: 百度地图api爬虫

python网络爬虫的本质就是两步:设置请求参数(url,headers,cookies,post或get验证等)访问目标站点的服务器;解析服务器返回的文档,提取需要的信息。而API的工作机制与爬虫的两步类似,但也有些许不同:1、API一般只需要设置url即可,且请求方式一般为“get”方式2、API服务器返回的通常是json或xml格式的数据,解析更简单本篇我们就演示如何...

2019-10-10 17:04:02 3066 3

原创 python 读取excel时, 日期变成数字并加.0的问题

excel 文件内容如下:读取excel内容:import xlrdfrom datetime import datetimefrom xlrd import xldate_as_datetime, xldate_as_tuplefilename = r'C:\Users\Administrator\Desktop\niceloo\10月\流水.xlsx'rbook = xlr...

2019-10-07 17:30:08 4124 1

原创 matplotlib 画饼状图

- autopct='%1.2f' 代表的是显示百分比, 显示到小数点后两位

2019-09-26 17:52:12 575

原创 matplotlib 图表显示中文

import matplotlib.pyplot as plt %matplotlib inline # 让图标在行内显示plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号...

2019-09-26 17:08:16 882

原创 python 多进程multiprocessing

创建进程: 首先要导入multiprocessing中的Process创建一个Process对象, 创建Process对象时, 可以传递参数p = Process(target=XXX,args=(tuple,),kwargs={key:value})target = XXX 指定的任务函数,不用加(),args=(tuple,)kwargs={key:value}给任务函数传递的参数...

2019-08-15 15:34:20 116

原创 pymongo去重: 插入数据时,不存在则插入,存在则不执行

爬虫想把爬取的数据存入到mongoDB中, 这时候经常遇到的一个需求就是插入的数据已经存在数据库中, 因此插入前去重就是一个经常性的课题.我的想法是:如果数据库中已经存在这个数据, 那么就什么也不操作如果数据不存在, 则插入这个数据为了实现这个想法, 查了很多文献, 发现使用update 可以实现下面就是我测试的代码# 首先在数据中插入一条数据document...

2019-08-13 17:13:49 8162 3

原创 pyecharts 安装完之后,bar,grid包不能导入的解决办法

pyecharts安装:采用的是常规安装方法: pip install pyecharts出现问题:cannot import name 'Bar'解决办法:先卸载pyechartspip uninstall pyecharts重新安装:去官网下载: pyecharts官网点击下载把下载下来的whl文件放在指定的目录下进行安装执行安装命令 如下:pip in...

2019-08-10 17:21:12 3448

原创 爬虫:使用socks代理请求网页

import requestsproxise = { 'http': 'socks5://user:password@ip:port', 'https': 'socks5h://user:password@ip:port'}url = 'http://www.amazon.co.jp'res = requests.get(url,proxies=proxise)print...

2019-07-31 14:40:19 1289

原创 gevent 异步爬虫

先上代码:import requestsimport geventfrom gevent import monkey; monkey.patch_socket()import lxml.htmlurl_list = ['https://tieba.baidu.com/f?kw=%E9%83%91%E5%B7%9E%E8%B4%B4&ie=utf-8&pn={}'.for...

2019-07-23 08:44:06 185

原创 asyncio 异步爬虫(转)

转载过来的代码,方便自己查看,勿怪# 异步方式爬取当当畅销书的图书信息import time import aiohttp import asyncio import pandas as pd from bs4 import BeautifulSoup # table表格用于储存书本信息 table = [] # 获取网页(文本信息) async def fetch(sess...

2019-06-26 19:21:01 497 1

原创 tldextract模块的使用

tldextract是一个第三方模块,意思就是Top Level Domain extract,即顶级域名提取使用时 需要安装,命令如下pip install tldextractURL的结构,news.baidu.com 里面的news.baidu.com叫做host,它是注册域名baidu.com的子域名,而com就是顶级域名TLD。import tldextracttl...

2019-04-12 14:00:41 7472 1

原创 chardet判断中文编码

res.text判断中文编码时有时候会出错,还是自己通过chardet获取更准确先看一段代码import requestsr = requests.get('http://epaper.sxrb.com/')print(r.encoding)# result: ISO-8859-1上面是打开了网址: 山西日报数字报 ;通过手动查询网页源码编码是charset "utf-8"...

2019-04-12 11:53:40 1612

原创 mysql导入导出sql文件

mysql在window下的导出导出整个数据库(包括数据库中的数据和表结构)mysqldump -u用户名 -p密码 数据库名 > 数据库名.sql导出数据库中的数据表(包括数据表中的数据)mysqldump -u用户名 -p密码 数据库名 表名 > 表名.sql导出数据库结构(不包括数据,只有创建数据表语句)mysqldump -u用户名 -p密码 -d 数据库名 &g...

2019-04-11 18:07:54 132

原创 pandas从数据库读取数据,并生成表格

和上篇文章"Python读取Excel文件并写入数据库" 所需要的模块一样sqlalchemypymysqlpandaspandas模块提供了read_sql_query()函数实现了对数据库的查询,to_sql()函数实现了对数据库的写入。并不需要实现新建MySQL数据表。sqlalchemy模块实现了与不同数据库的连接,而pymysql模块则使得Python能够操作MySQL...

2019-04-10 22:06:18 5910 1

原创 splash + scrapy 抓取京东科幻小说页面

抓取地址https://search.jd.com/Search?keyword=%E7%A7%91%E5%B9%BB%E5%B0%8F%E8%AF%B4&enc=utf-8&suggest=1.def.0.V16--featuredump,&wq=%E7%A7%91%E5%B9%BB&pvid=814262d98b22410fbd624ce0cf1a19fa...

2019-04-09 10:01:47 493

原创 scrapy-splash 爬取Taobao页面

开发环境Windows 10python3vs codedockerdocker 安装下载 Docker Toolbox具体安装方法请百度, 教程很多, 这里就不多介绍啦安装 scrapy-splashpip install scrapy-splash运行 splash打开 Docker Quickstart Terminal, 输入以下命令:docker...

2019-04-08 17:54:36 553 2

原创 爬虫:使用接口地址实现有道翻译

使用火狐或者chrome浏览器打开有道翻译右键 -> 检查元素在弹出的调试界面选择网络找到响应是json类型的地址,一般情况下市我们的接口地址选中相应接口地址,点击参数,下面的表单数据中使我们要提交的数据分析表单中的接口数据,添加如下代码import jsonimport requests# 构建POST消息体post_data = { 'i' : '矩阵',...

2019-04-02 10:13:20 320

原创 给定一个元素唯一的数量大于2的数组,若数组两个数相加和为m,返回所有满足要求的数对

求和问题,给定一个数组,数组中的元素唯一,数组元素数量 N >2,若数组中的两个数相加和为 m,则认为该数对满足要求,请思考如何返回所有满足要求的数对(要求去重)代码如下:如有错误,请指正def madd(arr, m): lt = [] for index,i in enumerate(arr): for j in range(index+1): ...

2019-03-27 16:23:48 412

原创 二分查找的python实现

二分查找是有条件的,首先是有序,其次因为二分查找操作的是下标,所以要求是顺序表二分查找:在一段数字内,找到中间值,判断要找的值和中间值大小的比较。如果中间值大一些,则在中间值的左侧区域继续按照上述方式查找。如果中间值小一些,则在中间值的右侧区域继续按照上述方式查找。直到找到我们希望的数字。非递归实现二分查找def binary_search(alist,data): ...

2019-03-26 22:22:52 1716

原创 拼写检查器

面向对象的拼写检查器class SpellCheck(object):#拼写纠错 def __init__(self,file_name): content = open(file_name).read() self.words = re.findall('[a-zA-Z]+',content) self.alphabet = 'abcde...

2019-03-26 16:55:18 336

原创 矩阵相乘的实现-python

第一个数组的列和第二个数组的行一样的时候才能相乘相乘原则:第一个数组的行乘以第二个数组的列然后相加放入对应位置.import numpy as npdef matrix_multi(m1,m2): # 首先建立一个值都是0的矩阵,矩阵形状是矩阵1的行数和矩阵2的列数组成 results = np.zeros((m1.shape[0],m2.shape[1])) # 判...

2019-03-26 11:58:49 2049 1

原创 selenium模拟爬虫

1.为什么使用selenium很多网站使用了ajax技术进行异步加载,直接使用requests抓取,只能抓取静态内容,无法抓取异步加载的ajax2.selenium的基本加载和使用# 需要安装$ pip install selenium启动浏览器的步骤from selenium import webdriver# executable_path为驱动位置, geckodri...

2019-03-16 17:58:46 239

原创 爬虫:信息的抽取

使用xpath 和 cssselect进行信息抽取使用xpath什么是xpathxml中, 通向某个节点的一个路径,例如: //div/ul/li/a, 例子中为通向a节点的一个路径基本用法取出所有的li中的a节点的内容import lxml.html# lxml.html.fromstring 解析出的第一个节点是根节点parse_result = lxml.ht...

2019-03-01 21:43:44 507

原创 爬虫Requests基本使用

爬虫RequestsRequests 库的基本使用首先安装Requests库#打开终端,注意本机的虚拟环境保持和项目环境一致pip3 install requests使用requests库进行最基本的下载# 下载百度首页,requests库将下载结果封装成response类response = requests.get("http://www/baidu.com")# dir可以...

2019-02-27 20:20:54 186

原创 python基础: 字符串操作

字符串定义: 使用引号括起来的一串字符一对单引号、一对双引号、三对单引号、三对双引号转义:使用 ‘\’,使原来有特殊含义的字符变成普通字符,也可以在定义字符串的前面加一个’r’字符串拼接s1 = 'hello's2 = 'world'# 可以使用'+'将字符串拼接在一起s3 = s1 + s2print(s3)# 输出结果: helloworld字符串重复#...

2019-01-12 19:34:23 214

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除