自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 python 学习语法有感

 原文来自Crossin的编程教室: https://mp.weixin.qq.com/s/efdz4pRVliKASurmLogMIw1,交换两个变量的写法:普通:temp = a           a = b           b = temppythonic: a, b = b, a2,类似的解包(unpacking)用法还可以实现多个返回值的函数普通:d...

2018-12-20 14:25:37 204

原创 python3 time和datetime关于strftime,strptime的用法

time和datetime傻傻搞不清楚数据转换为日期的方法,作为日期存在电子表格中,只能用datetime.date.today() 或datetime.datetime.strptime(a, '%Y%m%d').date(),才能存为日期格式的数据import timeimport datetimea = '20181114'print(time.str...

2018-11-14 13:17:40 8024

原创 python3用PyPDF2解析pdf文件,用正则匹配数据

  import PyPDF2 import re pdf_file = open('xxx.pdf', mode='rb') read_pdf = PyPDF2.PdfFileReader(pdf_file) # 获取pdf文件的所有页数 number_of_pages = read_pdf.getNumPages() # print...

2018-10-30 10:57:44 2567

原创 python3 有关字典的一些用法

 元组转字典,当元组重复的时候,字典中只需把相同的keys值的values相加如:res = (('a', 1), ('a', 2), ('c', 3), ('d', 4))转为:{'a': 3, 'c': 3, 'd': 4} # 组成字典,若重复,则是values值相加 res = (('a', 1), ('a', 2), ('c', 3), ('d',...

2018-10-30 10:11:30 228

原创 openpyxl 解析电子表格(.xlsx)数据,末尾增加一行,且保留原格式

 openpyxl 添加数据的时候不需要复制表格,这点尤为方便。 下面是在表格末尾添加数据,由于添加的数据已没有原本的单元格样式,所以需要设置他的单元格样式与上文保持一致。 pandas 如何获取所需数据的索引(判断条件可以改变,结果为列表)import openpyxlfrom openpyxl.styles import PatternFill, Alignmentimpor...

2018-10-15 09:58:10 12098

原创 log日志信息统计与画图

os.listdir(path)可以将路径下的文件地址都拿到----------------------------------------------------------------------------------------------------------------------------#!/usr/bin/env python# -*- coding: ...

2018-08-08 20:55:02 1305

原创 后缀是ipynb打开方式

在该文件夹按shift, 鼠标点击右键 会出现一个 在此处打开命令窗口(W)输入命令ipython notebook 等价于jupyter notebook  

2018-08-08 10:46:07 3448

原创 vue创建项目的命令

python: pycharm前端: hbuilder vue的入门(vue 创建项目的命令)     (-g 全局)     npm install  -g vue-cli     vue  list     cd Desktop     vue init webpack vue-music      cd vue-music     npm run ...

2018-08-02 21:10:03 2254

原创 缓存redis 配置

缓存的配置: 在Django的setting中:CACHES = { 'default': { 'BACKEND': 'django_redis.cache.RedisCache', 'LOCATION': 'redis://your_host_ip:6379', "OPTIONS": { "CLIENT_CLA...

2018-07-21 17:12:45 318

原创 scrapyd服务器 gerapy分布式爬虫管理框架

scrapyd 服务器:需要安装scrapyd==1.2.0  scrapyd-client==1.2.0a1  安装之后虚拟环境中应有scrapyd-deploy 启动scrapyd服务(此命令单独开一个窗口,不与其他的命令一块)     3 .配置爬虫项目4   开始向scrapyd中部署项目通过scrapyd-deploy命令测试scrapyd-deploy是否可...

2018-07-18 22:46:42 247

原创 使用Item Loaders对Item数据进行提取和解析(整理) 以及 多线程异步的形式对数据进行写入

使用Item Loaders对Item数据进行提取和解析(整理)。作用 : 之前的方式,是将数据的提取和解析混合在一起,但是Item Loaders是将这两个部分分开处理了;爬虫文件bole.py中只负责数据的提取;Items.py文件负责数据的整理;(可以实现数据解析代码的重用。相当于将功能相同的解析函数封装成为一个公用的函数,任何爬虫需要这个函数,都可以来调用。)1. 使关于数据的提取代码更加...

2018-07-13 13:05:30 587

原创 scrapy框架 selenium的使用

scrapy框架只能爬取静态网站。如需爬取动态网站,需要结合着selenium进行js的渲染,才能获取到动态加载的数据。 如何通过selenium请求url,而不再通过下载器Downloader去请求这个url?方法:在request对象通过中间件的时候,在中间件内部开始使用selenium去请求url,并且会得到url对应的源码,然后再将源代码通过response对象返回,直接交给process...

2018-07-12 22:17:38 1160

原创 发送带有附件的邮件

啥都不说,代码如下:# 发送带有附件的邮件。import smtplibfrom email.mime.text import MIMETextfrom email.mime.image import MIMEImagefrom email.mime.multipart import MIMEMultipart, MIMEBasefrom email import encoders...

2018-07-12 20:40:47 2199

原创 python scrapy框架 保存数据 .json/.csv /.txt/.xlsx 数据库pymysql, pymongo 下载图片与文件

整理笔记如下:一 保存为 .json类型在pipelines.py中:import jsonclass JsonPipeline(object): def __init__(self):         # 保存的文件        self.file = open('novel.json', 'wb') def process_item(self, item, spid...

2018-07-07 17:46:54 836 1

原创 Python 虚拟环境 python爬虫 scrapy框架

Python虚拟环境安装完成后如何创建项目:先进入py3scrapy才能创建哦!用pycharm打开为在setting中:# Obey robots.txt rules# Scrapy框架默认遵守 robots.txt 协议规则,robots规定了一个网站中,哪些地址可以请求,哪些地址不能请求。# 默认是True,设置为False不遵守这个协议。ROBOTSTXT_OBEY = False----...

2018-07-03 22:59:34 325

原创 woff 这种字体文件怎么抓取数据

这是在请求起点中文网的小说字数时遇到的问题.pip install fontTools 是用于将woff这种字体文件转化成XML文件在python的命令窗口运行这句话.================================================================首先要先查看这个woff文件内容是什么需要先下一个工具来查看即下图这个软件(需破解)安装下图这个,先装英...

2018-06-14 22:25:19 13947 3

原创 pyspider: 爬虫框架,基于PyQuery实现的。

pyspider: 爬虫框架,基于PyQuery实现的。优势:1. 基于多线程异步的任务调度方式;可以实现爬虫的高并发爬取,注意使用代理;2. 它提供了一个WebUI的爬虫任务管理界面,可以实现爬虫的停止,启动,调试,支持定时爬取任务;3. 代码简洁;4. 支持动态网站的爬取; requests/urllib只能爬取静态网站。phantomjsphantomjs: 幽灵浏览器,无界面版的浏览器。劣...

2018-06-14 20:48:42 283

原创 mongo安装与自启动

1: 先下载MongoDB2:安装第二步 : 选择第二个 custom (自定义); 记住安装路     3:打开安装路径,新建data文件夹,在data文件夹中建一个db 文件夹.                                                   4:打开cmd窗口:敲三步命令 如下图:                            在db文件夹中多了好...

2018-06-07 21:05:59 383 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除