qq_37232731-CSDN博客

原创系统各类环境安装命令

安装命令0、前言–系统及程序版本号ubuntu 16.04.1python 2.7.12mysql 5.7.26mysqlworkbench 6.3.6pip 8.1.1pika 1.0.1rabbitmq 3.5.7vsftpd 3.0.31、安装pip:sudo apt-get install python-devsudo apt-get install python-pip2、安装filezilla-client:sudo apt-get install

2020-10-14 07:38:58 214

原创 pip高速下载方法

以下文章来源于天作（wx：jhtmtzzc）pip install 问题Python这么火热的原因除了语法简单，容易上手。还有一点是Python拥有强大的开源社区，在无数贡献者的共同奋斗下，Python拥有了丰富的类库。所以我们经常会用 pip 来安装各种库。但国外的源下载速度实在太慢，而且经常会因为网络问题导致下载中断。使用国内镜像把国外的下载源换成国内的源（镜像），下载速度可以“飞”起来。国内的镜像源主要有：阿里云：http://mirrors.aliyun.com/pypi/sim

2020-07-21 17:08:43 2350

原创 python学习笔记——列表生成式的使用

列表生成式12个案列前言Python 里使用 [] 创建一个列表。容器类型的数据进行运算和操作，生成新的列表最高效的办法——列表生成式。列表生成式优雅、简洁，值得多多使用！基础部分1. 数据再运算实现对每个元素的乘方操作后，利用列表生成式返回一个新的列表。In [1]: a = range(0,11)In [2]: b = [x**2 for x in a] # 利用列表生成式创建列表In [3]: bOut[3]: [0, 1, 4, 9, 16, 25, 36, 49, 64,

2020-07-02 20:19:55 405

原创 python常用包介绍

前言Python 拥有许多强大的扩展包，为 Web 开发者、数据分析从业人员、机器学习工程师，快速构建模型提供便利。1、Web、爬虫、打包工具DjangoDjango 是最通用的 Web 开发框架之一，可以帮助开发者从零创造一个全功能的大型 Web 应用程序。FlaskFlask 是一个轻量级的 WSGI Web 应用框架，适合搭建轻量级的 Web 应用程序；容易上手，被广大 Python 开发者所喜爱。FastAPIFastAPI 是一个现代、高性能 Web 框架，用于构建 APIs，基于

2020-07-02 08:01:22 422

原创 python爬虫学习笔记——浏览器伪装技术

一、网站常见的反爬虫和应对方法一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度。1.0、 Headers反爬虫问题本质从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。1.1、Headers反

2020-06-29 11:29:55 281

原创 python爬虫笔记——验证码信息识别

（如果验证码识别较麻烦，可以采取半自动化操作：代码+人工进行验证码识别操作）普通验证码的识别1、前言OCR 即Optical Character Recognition,光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。tesserocr 是Python的一个OCR识别库。GitHub：https://github.com/tesseract-ocr/tesseract2、软件安装：模块安装：pip install tesserocr #安装tesserocr

2020-06-23 16:02:26 424

原创 python爬虫笔记——Selenium的初级使用

一、动态渲染页面爬取1、背景问题对于访问Web时直接响应的数据（就是response内容可见（不是ajax加载或者被渲染过的数据）），我们使用urllib、requests或Scrapy框架爬取。对于一般的JavaScript动态渲染的页面信息（Ajax加载），我们可以通过抓包分析Ajax请求地址来抓取信息。Ajax = 异步 JavaScript 和 XML（标准通用标记语言的子集）。Ajax 是一种用于创建快速动态网页的技术。Ajax 是一种在无需重新加载整个网页的情况下，能够更新部分网

2020-06-23 12:43:27 815

原创网络爬虫之XPath、Beautiful Soup、PyQuery的使用

网络爬虫解析库的引入之前基于re正则，比较繁琐，出错率较高爬取信息大多基于html结构的web页面, 网页节点较多，各种层级关系。常见的Python解析库XPath: 基于XML文档，包含html查找功能官方文档Beautiful Soup：依赖于lxml的解析库官方文档PyQuery： Python仿照jQuery严格实现官方文档关于 XPath 的使用XPath(XML Path Language)是一门在XML文档中查找信息的语言。XPath 可用来在XML文

2020-06-12 11:57:27 626

原创 mysql个人学习笔记

为了加深自己对mysql知识的印象，专门记录下自己的学习过程；（Windows系统下）初步了解数据库——建议看查看下菜鸟教程；（感觉直接看菜鸟教程学习也行，笑哭.jpg）安装数据库：下载、解压、初始化、运行。a、下载地址：mysql下载；b、解压和初始化：c、启动MySQL服务（两种方法）；方法一：在图形界面下启动mysql服务的步骤如下：（1）打开控制面板->管理工...

2020-04-09 13:04:00 220

原创 python正则小知识（零宽断言、循环使用search来达到findall的效果）

在练习python正则知识点的时候发现好多不同寻常的知识点，一开始看不懂，专研了半天摸到一点皮毛，特此记录下来。包括：零宽断言，search小发现等。关于零宽断言推荐看下：https://blog.csdn.net/dnxbjyj/article/details/70946508以下几种方法效果一样：#提取字符串中的手机号码#目标字符串为： ''' 重要的事情说81301234...

2020-03-23 12:17:39 349

原创 python--每日一练-05

1、打印出所有的"水仙花数"，所谓"水仙花数"是指一个三位数，其各位数字立方和等于该数本身。例如：153是一个"水仙花数"，因为153=1的三次方＋5的三次方＋3的三次方。for i in range(100,1000): sum = 0 for j in str(i): sum += (int(j)) ** 3 if i == sum: ...

2019-12-11 10:42:12 213

原创 python--每日一练-04

1、判断2-200之间有多少个素数，并输出所有素数。质素定义：质数又称素数。一个大于1的自然数，除了1和它自身外，不能被其他自然数整除的数叫做质数。from math import sqrtleap = 1for i in range(2,201): j = int(sqrt(i)+1) for m in range(2,j+1): if i % m ==...

2019-12-10 11:48:57 127

原创 5、BeautifulSoup解析库详解

本篇博文是自己在学习崔庆才的《Python3网络爬虫开发实战教程》的学习笔记系列BeautifulSoup解析库详解1、BeautifulSoup解析库简介BeautifulSoup是Python的一个HTML或XML解析库，灵活又方便的网页解析库，处理高效，支持多种解析器。最主要的功能就是不用编写正则表达式即可方便的从网页爬取我们需要的数据。BeautifulSoup将html解析...

2019-09-02 17:43:37 758

原创 4、正则表达式

本篇博文是自己在学习崔庆才的《Python3网络爬虫开发实战教程》的学习笔记系列正则表达式详解1、定义什么是正则表达式——正则表达式是对字符串操作的⼀种逻辑公式，就是⽤事先定义好的⼀些特定字符、及这些特定字符的组合，组成⼀个“规则字符串”，这个“规则字符串”⽤来表达对字符串的⼀种过滤逻辑。正则表达式的用途——正则表达式通常被用来匹配、检索、分割那些符合某个模式（规则）的文本。2、...

2019-09-02 07:34:07 198

原创 3、Requests库详解

Requests库详解本篇博文是自己在学习崔庆才的《Python3网络爬虫开发实战教程》的学习笔记系列urllib在加一些代理、处理cookie、以及发送一些post请求的时候会有些繁琐。相对于urllib库的话，requests显得更加强大。什么是Requests：Requests 是⽤Python语⾔编写，基于 urllib，采⽤Apache2 Licensed 开源协议的 HTT...

2019-08-31 22:35:35 192

原创 2、Urllib库详解

Urllib库详解什么是Urllib?Python内置的HTTP请求库（安装好Python后就可以直接使用）.urllib包括哪些模块urllib.request：请求模块（类似于在浏览器中输入网址并回车操作，需要传递url链接以及参数）urllib.error ：异常处理模块（出现请求错误的话，使用该方法捕获异常）urllib.parse url：解析模块（提供许多url处理方...

2019-08-31 00:29:48 178

原创 1、爬虫基本原理讲解

爬虫基本原理爬虫基本原理爬虫基本流程什么是Request和Response?Request中包含什么？Response中包含什么？爬虫能抓怎样的数据？怎样来解析？？怎样解决JavaScript渲染的问题？可以怎样保存数据？爬虫基本原理什么是爬虫？——请求网站并提取数据的自动化程序爬虫基本流程发起请求 : 通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的he...

2019-08-30 21:35:07 391

转载 Failed to connect to https://changelogs.ubuntu.com/meta-release-lts. Check your Internet connection

问题描述：Ubuntu登陆首页后提示如下信息：Failed to connect to https://changelogs.ubuntu.com/meta-release-lts. Check your Internet connection or proxy settings一开始发现问题时是因为apt-update更新失败，查了许多方法在重启时发现这个问题的。解决方法如下：（1）移除...

2019-06-22 19:38:58 15842 1

转载启动nginx 报错：Job for nginx.service failed because the control process exited with error code.

检查了下Nginx -t 发现是安装正常的，貌似因为之前运行的django占用了80端口的原因，好像Nginx默认运行80端口吧，所以导致了这个问题。解决方法：发现端口被占用，centos中查看端口被占用命令为netstat -lnp | grep 80杀掉所有80端口的进程：lsof -i :80|grep -v “PID”|awk ‘{print “kill -9”,$2}’|sh...

2019-06-18 20:40:56 357

转载 Error: That port is already in use

运行python manage.py runserver 0.0.0.0:8080时出现Error: That port is already in use在终端输入 sudo fuser -k 8080/tcp这样和端口8000相关的进程就都关了。

2019-06-17 21:18:13 178

转载 UnicodeDecodeError: 'gbk' codec can't decode byte 0xa6 in position 9737: ill....

Django2.2 安装后，使用runserver进行开发，出错时错误信息只显示于控制台命令行，而在前端页面只显示一行“A server error occurred. Please contact the administrator.”排错很不方便，仔细查看控制台的错误信息，提示UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xa6 i...

2019-04-29 22:44:23 16025 2

qq_37232731的博客