荒城以北-CSDN博客

原创爬虫-某直播平台图片批量爬取url并下载

import jsonimport timeimport requestsfrom selenium import webdriverclass HuYa(object): def __init__(self): self.start_url = "https://www.hxyx.com/l"#某直播平台的url地址"x"为缺省值：地址自己定义 ...

2019-01-15 21:23:58 3062

基础知识点整理1.关于C++中的数据类型和python的区别python : int float str list dict ----C++: char int float bool int num,sum = 0,num1; cin>>num; num1 = num; while(num!=0) { int tmp = num%10; sum*=10; sum+=tmp; num=num/10; } cout<<sum+num

2022-04-17 19:08:04 1027

原创爬虫第八章

比较运算符⼩于：$lt （less than）⼩于等于：$lte （less than equal）⼤于：$gt （greater than）⼤于等于：$gte不等于：$nedb.stu.insert([{“name” : “郭靖”, “hometown” : “蒙古”, “age” : 20, “gender” : true },{“name” : “⻩蓉”, “hometown” : “桃花岛”, “age” : 18, “gender” : false },{“name” : “华筝”,

2021-12-09 11:46:27 119

原创爬虫第七章

mongodbmongo 客户端连接dbdb 显示当前正在使用的数据库show dbs 显示所有数据use db(name) 使用指定数据库db.dropDatabase() 删除正在使用的数据库collectiondb.test 使用当前数据库下面的test集合进行操作，如果没有会自动创建show collecitons 显示当前数据库下的所有集合db.test.drop() 删除当前的集合pymongopip install pymongo入门使用from p

2021-12-09 11:45:50 125

原创爬虫第六章

selenium在淘宝镜像中下载指定的chromedriver，windwos的用户将其放在虚拟环境的scripts或者python3的环境文件中，总之要和python.exe同级目录，Linux和Mac用户放入/usr/local/bin目录下selenium入门pip install seleniumfrom selenium import webdirverdriver = webdriver.Chrome() # 创建一个Chrome的driver实例对象# 访问人人登录页面

2021-12-09 11:45:15 77

原创爬虫第五章

多线程线程的创建和运行import threadingdef task(num): passt = threading.Thread(target=task,args=(num,))t.start()守护线程一般情况下，主线程代码执行完毕后不会结束，会等待所有子线程任务结束后才结束如果将子线程设置为守护线程，意味着：主线程代码执行完毕，主线程和子线程一起立即结束t.setDaemon(True)多线程的队列from queue import Queueq

2021-12-09 11:44:43 63

原创爬虫第四章

1. 正则表达式1.1 单个字符\d 数字0-9\s 空白字符空格 \t \n\w 单词字符. 除了\n的任意字符[a-d0-9] 匹配a-d或者0-9中任意一个1.2 多个字符{m,n}前一个字符出现m-n次(包含m和n)* 匹配前一个字符任意次（0，1，多次）+ 匹配前一个字符至少一次（1或者多次）? 匹配前一个字符0次或1次1.3 re模块re.findall() # 查找所有re.sub() # 替换，数据清洗的时候很常用re.compile()

2021-12-09 11:44:07 63

原创爬虫第三章

三元运算符a = b if b else c # 如果b为真，a=b，否则a=cif b： a = belse: a = crequests处理cookies将cookie字符串直接放入headers中准备cookie字典，在requests请求实传入cookies参数中cookies_dict = {}requests.get(url,headers=headers,cookies=cookies_dict)js分析观察变化定位js找到触发请求的标签

2021-12-09 11:43:31 62

原创爬虫第二章

1. Response常用的属性response.headers 响应头rsponse.request.headers 请求头response.status_code 状态码response.request.url 请求的urlresponse.url 响应的url2. 带headers的请求headers = {"User-Agent":"从浏览器复制"}request.get(url=url,headers=headers)3. 带参数请求params = {"wd":""}

2021-12-09 11:42:44 104

原创爬虫第一章

1. 爬虫的用途爬去数据用做网站展示爬去数据用来为大数据或者人工智能服务2. 什么是爬虫？模拟浏览器发送请求，获取响应的程序3. 爬虫的分类3.1 通用爬虫搜索引擎的爬虫，爬去整个互联网的数据3.2 聚焦爬虫针对特定网站专门写的抓取数据的程序聚焦爬虫的流程准备url列表拿到一个url发起请求，获取响应响应提取提取的是数据，数据保存提取的是url，放入url列表rootbots协议：网站规定搜索引擎可以爬去的内容范围，只是道德约束4. 爬虫程序的响应爬

2021-12-09 11:41:37 92

原创制作一款游戏这么简单

简易贪吃蛇小游戏设计贪吃蛇pygame贪吃蛇import pygame from pygame import Rectfrom pygame.locals import *import random pygame.init() t = pygame.time.Clock() pygame.display.set_caption('Snake')screen = pygame.display.set_mode((800,700))while True: s

2021-03-19 16:15:54 136

转载 csdn_export_md

#这里的requests，re，urllib库是python自带的，lxml是通过pip下载的 from urllib import request,parse from lxml import etree import requests,re 步骤一：先爬取电影名和电影名相对应的详情链接 url1 = "https://www.dytt8.net/index0.html" req1 = request.Request(url1) respon...

2020-11-13 15:02:56 143

转载 README

不同字串"""一个字符串的非空子串是指字符串中长度至少为1的连续的一段字符组成的串。例如，字符串aaab有非空子串a, b, aa, ab, aaa, aab, aaab，一共7个。注意在计算时，只算本质不同的串的个数。请问，字符串0100110001010001有多少个不同的非空子串？这是一道结果填空的题，你只需要算出结果后提交即可。本题的结果为一个整数，在提交答案时只填写这个整数，填写多余的内容将无法得分。"""s = '0100110001010001'# s ..

2020-11-09 20:05:49 199

原创万维网基础知识总结

一.什么是万维网：万维网是一个大规模的，联机式的信息存储所，英文简称Web。二.超文本，超媒体：所谓超文本是指包括制定其它文档的链接的文本(text)。所谓超媒体是指出了包涵文档text之外，还包含其它表示方式的信息，如图形，图像，声音，动画，视频图像等。三.实现万维网需要的几个必须解决的关键问题 1.怎样标志分布在整个互联网上的万维网文档？－－－－－》URL URL（统一资源定为符）资源位置和访问这些资源的方法；资源地址；互联网上的所有

2020-06-05 17:30:48 4447

原创 python文件操作

打开文件以及保存文件的操作1.保存个人密码操作：import timeusername = input("输入用户名：")password = input("输入密码（长度不少于6位)")ctime = time.ctime()while len(password) < 6: password = input("密码不得少于6位，请重新输入：")info = "时间：" + str(ctime) + '\n' + "用户名：" + username + '\n' +

2020-05-25 20:52:25 106

原创人工智能--人脸识别

脸部扫描识别AIimport cv2from helper import prefacencoding,facerecognitionfrom helper import drawname,drawtime# import threading import timevideo_capture = cv2.VideoCapture(0)known_face_names,known_f...

2019-07-02 14:05:48 5753

原创快速高效的学习python---入门---高级

以做题的方式去攻克基本知识：a, b两张表，a: abccd; b: acded ,使用sql语句查询出a,b的accd。由以上表中的数据可以看出accd属于a,b的交集；使用innersql语句查询：select * from B inner join B.name = A.name验证结果： accda = ‘abbbbccc’, 使用正则表达式匹配为abccc不管由多少个b只允...

2019-03-19 11:01:09 233

原创爬虫,爬bing图片搜索,给定关键词,多线程爬虫,图片

爬虫,爬bing图片搜索,给定关键词,多线程爬虫,图片哗啦啦的来#####utf-8import urllib.requestimport urllib.parseimport osimport reimport sys,threading,timeimport socketclass Bing: def openurl(self,url): tml=ur...

2019-03-14 13:21:17 1282 3

原创爬虫基本功---面试宝典

基本知识点的梳理一. python 的基本功简述python的特点和优点；python 是一门开源的解释性语言，相比于Java C++， python具有动态的特性，非常的灵活。python有那些数据类型：python有六种内置的数据类型，其中不可变得数据类型有：int整数，str字符串，tupel元组，可变的数据类型；dict字典，list列表，set集合。列表和元组得区别：列...

2019-03-10 11:20:39 290

原创 Mongodb 数据库

mongodb首先关系型数据库和非关系型数据库的介绍；对于关系型的数据库，存储数据之前，必须先建表建库，随着数据的复杂度越来越高，所建表的数量也就越来越多但是非关系型数据库却不需要如此复杂；关系型数据库很强大，但是它并不能很好的应付所有的应用场景；MySQL的扩展性差；大数据下IO压力大；表结构更改困难。mongodb 易扩展，大数据量高性能，灵活的数据模型，高可用。mongodb有...

2019-03-02 16:32:55 8927 2

原创 Redis

Redis：Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。Redis 的特性：redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载使用；redis不仅仅支持简单的key:value类型的数据，同时还提供了，string.list, zset. set, hash,等数...

2019-03-02 15:24:43 145

原创 python基础笔记--mysql

SQL语句主要分为：DQL：数据查询语言，用于对数据进行查询，如selectDML：数据操作语言，对数据进行增加、修改、删除，如insert、udpate、deleteTPL：事务处理语言，对事务进行处理，包括begin transaction、commit、rollbackDCL：数据控制语言，进行授权与权限回收，如grant、revokeDDL：数据定义语言，进行数据库、表的管理等，...

2019-03-02 10:15:56 209

原创 git版本控制

一般一些不需要提交到远程仓库的代码或者文件；使用 .gitignore,对文件进行忽略；设置全部编码防止乱码的产生，影响代码；git config --global gui.encodeing utf-8一般新建仓库需要初始化仓库：git init把项目缓存到本地仓库：git add *提交到本地仓库并备注；git commint -m “修改了文件”推送到github仓库g...

2019-03-01 21:47:32 143

原创简单概括一些所谓的测试

简单阐述下后端的测试：直接对web和App后端进行测试；需要测试接口，通常使用postman进行手工功能的测试或者使用python的pytest进行接口的测试；（代码实现接口自动化测试方便回归）。对服务器的数据库，中间件，缓存系统进行测试：其中数据库需要关注增删改查异常测试；列入服务器异常的宕机，能否启动备机（根据公司的业务需要，有些需要有些没有备机），挂掉的情况下数据是否会丢...

2019-03-01 20:58:16 176

原创 python中的垃圾回收机制

python中的垃圾回收机制：python中的垃圾回收是以引用计数为主；分代收集为辅；引用计数的缺陷是循环引用的问题；在python中，如果一个对象的引用计数为0，python虚拟机就会回收这个对象的内存。垃圾回收：python中的ＧＣ模块的主要应用了引用计数来回收垃圾；在引用计数的基础上还可以通过标记清楚来解决容器对象可能产生的循环引用问题；通过分代回收以空间换取时间进一步提高垃圾回收...

2019-02-21 16:06:09 173

原创 nginx_锁_同步_异步_阻塞

nginx 的相关介绍nginx的产生：首先是因为apache局限性而产生的nginxapache当年最大的最流行的WEB服务器，发展时期相当的长；也有很多的优点：稳定；开源；跨平台等；它最初的额设计就是一个重量级的服务器；缺点就是不支持高并发；如果运行的访问量过高就会导致服务器卡死；进行进程和线程的操作也会导致CPU的资源过高；导致HTTP的请求的响应的速度降低所以不能成为高性...

2019-02-21 14:39:53 246

原创关于nginx使用介绍

nginx 的相关介绍nginx的产生：首先是因为apache局限性而产生的nginxapache当年最大的最流行的WEB服务器，发展时期相当的长；也有很多的优点：稳定；开源；跨平台等；它最初的额设计就是一个重量级的服务器；缺点就是不支持高并发；如果运行的访问量过高就会导致服务器卡死；进行进程和线程的操作也会导致CPU的资源过高；导致HTTP的请求的响应的速度降低所以不能成为高性...

2019-02-20 10:33:01 143

原创面试总结

面试总结第一天一句话翻转字典的key和value python的自省机制元祖和列表的区别 tcp和udp优缺点tcp和udp差别 GIL全局解释器锁 cookies selenium怎么解析数据为什么用selenium一句话翻转字典的key和value 方法一：列表生成式 dict([(v,k) for k,v in di...

2019-02-19 09:36:44 181

原创一些高可用的面试题整理

说一下TCP的三次握手客户端在访问服务器的什么？在三次握手中服务器内部发生了什么事情？建立起一个TCP连接需要经过“三次握手”：1） Client首先发送一个连接试探，ACK=0 表示确认号无效，SYN = 1 表示这是一个连接请求或连接接受报文，同时表示这个数据报不能携带数据，seq = x 表示Client自己的初始序号（seq = 0 就代表这是第0号帧），这时候Client进入syn_...

2019-02-18 21:15:12 5348

原创 Mysql/Redis数据库基础知识的整理

Mysql/Redis基础知识的整理Celery的底层原理celery是基于python实现的一个异步任务的调度工具，同时还是一个任务队列，主要用于处理耗时的任务：celery主要由三部分组成：消息中间件(message broker)消息中间键，是任务调度队列，是一个独立服务，是一个生产者与消费者模式，生产者把任务放进队列中，消费者(worker)从任务队列中取出任务执行，任务的执行...

2019-02-18 13:43:54 380

原创面试题

11. 请筛选年龄小于18或者大于40的Personfrom django.db import modelsclass Person(models.Model): name = models.CharField(max_length=200) age = models.IntegerField()当我们在查询的条件中需要组合条件时(例如两个条件“且”或者“或”)时。我们可以...

2019-02-03 21:33:20 335

原创苏宁图书爬取

苏宁图书爬取：创建项目工程：Scrapy startprojeect suning(项目名称)创建爬虫：Scrapy genspider sn book.suning.com获取大分类的分组：div_list = response.xpath("//div[@class=‘menu-list’]/div[@class=‘menu-item’]")4. 获取大分类下面的子菜单：d...

2019-01-27 19:29:47 809

原创最全爬虫总结没有之一拿走不谢

爬虫总结1. 爬虫流程？准备url列表发起请求、获得响应提取数据，提取url放入url列表保存数据聚焦爬虫的流程注意：提取的数据以url对应的响应为准，浏览器element只能作为参考2. requests的使用pip install requests2.1 基本使用resp = request.get(url,headers=headers,params=parma...

2019-01-27 18:39:08 1627

原创 bloom布隆过滤器

布隆过滤器哈希函数的特性：输入域无限，输出域有限相同的输入一定得到相同的输出结果不同的输入也可能得到相同的输出结果（哈希碰撞）输出域的每个结果在整个输出域中是均分分布的（离散性）哈希表哈希表又称为散列表、链表散列等，由列表+链表构成，每个列表的元素项都是一个链表，在python中，字典（dict）就是利用哈希表结构实现的，链表中的每个结点就是一个键值对当向哈希表插入一个（ke...

2019-01-27 13:32:34 356

原创 scrapy框架-----JDbook爬虫

京东图书爬虫# -*- coding: utf-8 -*-import scrapyfrom copy import deepcopyimport jsonclass JjdSpider(scrapy.Spider): name = 'jjd' allowed_domains = ['jd.com', 'p.3.cn'] start_urls = ['http...

2019-01-26 11:28:37 179

原创分布式爬虫----当当网图书数据爬取

当当网图书数据爬取分布式爬虫列举执行方式：通过runspider方法执行爬虫的py文件（也可以分次执行多条），爬虫（们）将处于等待准备状态：scrapy runspider myspider_redis.py在Master端的redis-cli输入push指令，参考格式：$redis > lpush myspider:start_urls http://www.dmoz.or...

2019-01-26 11:24:39 1927

原创 Redisspider的爬虫和scrapy.spider的区别

Redisspider的爬虫和scrapy.spider的区别Redisspider 分布式爬虫，请求的持久化，去重的持久化区别父类不一样，RedisSpiderstart_urls没有了，多了redis_key ，往redis_key存入start_url地址settings 中多了几行配置创建爬虫scrapy genspider 爬虫名爬取范围修改父类名修改r...

2019-01-26 08:26:03 821

原创爬虫框架开发

爬虫框架开发码云用户名： pysmt引擎"""引擎组件"""from scrapy_plus.http.request import Request # 导入request对象#导入爬虫中间件from scrapy_plus.middlewares.spider_middlewares import SpiderMiddleware#导入下载器中间件from scrapy_...

2019-01-25 21:45:21 162

原创分布式爬虫的实现

分布式爬虫的实现创建爬虫类scrapy genspider itcast itcast.cn修改继承类为scrapy_reids中的RedisSpider删除原有的start_urls添加存在start_urls在redis数据库中的键from scrapy_redis.spiders import RedisSpiderclass ItcastSpider(R...

2019-01-25 08:59:48 163

原创 scrapy debug信息补充

scrapy debug信息2019-01-19 09:50:48 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tencent)2019-01-19 09:50:48 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, par...

2019-01-22 21:24:43 617

贪吃蛇3.0 pygame制作贪吃蛇

空空如也