自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (6)
  • 收藏
  • 关注

转载 flask实现异步任务

from flask import Flaskimport timefrom concurrent.futures import ThreadPoolExecutorexecutor = ThreadPoolExecutor(1)app = Flask(__name__)@app.route('/synchronize')def update_redis(): exe...

2018-10-29 13:55:20 1817

原创 日常简单函数(爬虫-请求)

请求数据# coding=utf-8import requestsfrom fake_useragent import UserAgent# 私有请求模块def _request(url, times=0, type='text'): Retry_times = 5 # 重试次数 try: res = requests.get(url, headers...

2018-06-28 17:27:45 508

原创 lxml的坑

正常情况下请求requests 请求的内容进行转换html = etree.HTML(response)固定思维,html是一个selector对象但是 如果response是‘空’a = ''html = etree.HTML(a)print(html)那html是什么呢 是None如果是None呢他就会报错...

2018-06-24 14:20:25 926

原创 MongoDB远程导出,本地导入命令 笔记

介绍三个命令:命令模式下:连接远程数据库   mongo ip:port/仓库名称远程导出数据库   mongodump -h ip --port 端口 -d 远程仓库-o 本地存储路径导入本地数据库   mongorestore -d 仓库名称 --drop 数据库备份路径...

2018-04-22 12:28:35 2889

原创 python CSDN模拟登陆(三种方法)

第一种方法:requests直接携带cookies上代码:import requestsimport reclass myLogin(): def __init__(self): self.header = { 'User-Agent': 'iTunes/4.2 (Macintosh; U; PPC Mac OS X 10.2)',

2017-11-25 23:04:33 880

原创 多线程代理ip验证(requests)

直接上代码:import requestsfrom queue import Queueimport threadingclass proxy_ip(): # 初始化参数 def __init__(self): self.url = 'http://www.baidu.com/' self.ip_list_queue = Queue()

2017-11-24 03:59:04 8475

原创 python爬虫之scrapy中user agent浅谈(两种方法)

user agent简述User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。user agent开始(测试不同类型user agent返回值)手机user agent 测试:Mozilla/5.0 (Linux; U; Android 0.5;

2017-11-24 00:35:59 19904 6

原创 scrapy抓取腾讯招聘数据并入库mongodb(浅)

明确目标:抓取内容:职位名称、人数,类别、地点、发布时间 以及详情页面的岗位职责、工作要求1.配置itens.py既然以及确定目标,开始定义items.pyimport scrapyclass TtspiderItem(scrapy.Item): mc = scrapy.Field() # 名称 lb = scrapy.Field() # 类别 rs =

2017-11-15 16:53:56 542

原创 python爬虫之验证码识别(浅)

话不多说,大人上码ლ(′◉❥◉`ლ)!!!# coding = utf-8import requestsimport pytesseractfrom PIL import Imageclass checkcode(): def __init__(self): # 初始化参数 self.start_url = 'http://jxjy.dwjtaq.com/

2017-11-13 22:18:08 481

原创 python爬虫selenium模块实现登陆(浅)

selenium是一个非常好的模块使用selenium首先要导入模块from selenium import webdriver要拿webdriver实现功能需要实例化一个driverdriver = webdriver.Chrome此时driver具有以下方法(此处仅仅介绍常用)driver.get(url) # 请求数据d

2017-11-13 20:47:55 564

原创 多线程爬虫案例(浅)一

单线程爬虫:# coding = utf-8import requestsfrom lxml import etreeimport timeclass bdjSpider(): def __init__(self): self.start_url = 'http://www.budejie.com/text/' self.headers =

2017-11-13 18:23:23 356

2022号码归属地_20220927_49万条

13、14、15、16、17、18、19开头的号码均有, 数据格式为sql,字段:代码、号段、省份、城市、服务商、区号、邮编、区划代码

2022-09-27

中国邮政编码(含港澳台)

全国邮政编码,详细到街道..可用于区域划分、文件是sql,没有做字段长度优化,具体的需求自己动手,我就是凑字数...

2020-11-12

wifi8位密码大全.rar

搜索全球路由器中的wifi密码,每一个密码都是来源于路由器,经过去重处理,数据量大约在250万左右,请用于合法项目,请勿违法

2020-09-29

公司英文名称(84万).rar

数据清洗了千万级工商数据,提取了84万标准英文公司名称,来源某查,简单清洗,可自行深度清洗

2020-04-02

姓名大全(266万).rar

某查2千万工商数据中提取出来的266万不重复的2-3字姓名大全,已清洗,但不保证清洗彻底,按照a-z字典序排序的,测试了很多常见姓名,都是包含的;

2020-02-04

字体查看器

字体查看器,用于查看字体

2018-12-12

无损音乐搜索引擎(源码)

基于酷狗音乐开发,利用酷狗接口,实现音乐搜索,并通过构造无损音乐链接,达到无损音乐下载。

2018-01-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除