weixin_41940785-CSDN博客

原创功能强大的python包（十一）：threading （多线程）

1.threading简介threading库是python的线程模型，利用threading库我们可以轻松实现多线程任务。2.进程与线程简介通过上图，我们可以直观的总结出进程、线程及其之间的关系与特点：进程是资源分配的最小单元，一个程序至少包含一个进程线程是程序执行的最小单元，一个进程至少包含一个线程每个进程都有自己独占的地址空间、内存、数据栈等；由于进程间的资源独立，所以进程间通信（IPC）是多进程的关键问题同一进程下的所有线程都共享该进程的独占资源，由于线程间的资源共享，所有数据同步

2021-11-03 09:22:14 2449

原创学习Linux，这些就够了！

前言要想成为程序员，几乎绕不开学习Linux操作系统。很多博客都会讲解Linux相关知识，但却很少告诉我们Linux要学到什么程度，最应该掌握哪些。想想我们学习的Windows系统，我们会增删改查目录、文件，下载安装卸载软件，开关机、重启。那我们学习Linux系统也是掌握以上这些就可以了。跟着本博客学习Linux，不多不少，刚好够用！1.Linux简介Linux，全称GNU/Linux，是一种免费使用和自由传播的类UNIX操作系统，其内核由林纳斯·本纳第克特·托瓦兹于1991年10月5

2021-09-03 15:52:43 128

原创 SQL—结构化查询语言

1.SQL简介SQL是一种结构化查询语言，是专门为数据库而建立的操作命令集，是一门数据库语言。对于数据库的交互操作离不开SQL，SQL为我们管理数据库提供了极大的方便。2.SQL总览

2021-08-31 12:33:28 588

原创批量下载图片—（基于scrapy框架）

1.引言爬取摄图网插画栏目中各个类目下的全部图片。要求：将所有爬取的图片保存至以各自所属类别命名的文件夹中。2.流程分析首先这个任务属于一个两层网络爬虫，因为实际图片的下载路径位于第二层，所以我们必须从第一层网页中获取第二层网页的URL，接着从第二层网页中抓取各个图片的下载地址。上图展示的网页是我们初始请求的网页，其中每个图片对应一个插画类目，共100多个类目；我们需要请求该网页，并抓取每个插画类目对应的URL。由上图CSS选择器定位情况，我们知道一共有120个插画类目，每一个类目都存储在&

2021-08-19 18:18:45 323

原创反爬虫与反反爬虫技术

1.反爬虫技术首先我们来思考一下，为什么要反爬虫？网络中充斥大量爬虫的情况下，会使得整个网络的数据不可靠。网站在面对高并发爬虫的攻击时，很容易被击溃。版权数据被爬取，对于网站来说是巨大的损失。基于以上原因，反爬虫技术孕育而生，主要包含以下最常用的反爬技术：封IP后台对访问进行统计，如果单个IP访问超过阈值，则封锁该IP。封UserAgent后台对访问进行统计，如果单个UserAgent访问超过阈值，则封锁该UserAgent。封Cookie后台对访问进行统计，如果单个cookie

2021-08-18 19:41:11 1350

原创爬虫-爬取知乎热搜榜（图片下载）

1. 引言利用scrapy框架爬取知乎热搜榜网站前50条热搜。爬取信息：热搜新闻名、热搜新闻热搜量、热搜简介。数据存储：存储为.json文件。2.爬取流程新建scrapy爬虫项目：在终端输入以下代码，创建一个基于scrapy框架的爬虫项目，该项目为：zhihureshou。scrapy startproject zhihureshou在zhihureshou项目下新建爬虫程序文件在终端输入以下代码，创建一个名为reshou的爬虫程序文件。cd zhihureshouscra

2021-08-18 10:42:26 202

原创爬虫—爬取微博热搜榜

1. 引言利用scrapy框架爬取微博热搜榜网站前50条热搜。爬取信息：热搜排名、热搜新闻名、热搜新闻热搜量。数据存储：存储为.csv文件。2.爬取流程新建scrapy爬虫项目：在终端输入以下代码，创建一个基于scrapy框架的爬虫项目，该项目为：weiboreshou。scrapy startproject weiboreshou在weiboreshou项目下新建爬虫程序文件在终端输入以下代码，创建一个名为reshou的爬虫程序文件。cd weigoreshouscrap

2021-08-17 09:57:33 2532 3

原创功能强大的python包（十）：selenium（浏览器机器人）

1.selenium简介Selenium是一个用程序操作浏览器的工具，利用它可以实现浏览器自动化、自动化测试、辅助爬虫等。我们使用浏览器时的所有操作都是基于鼠标和键盘进行交互的，selenium就是用程序的形式来代替我们的键鼠操作，实现自动化的操作。利用scrapy编写爬虫时，我们可以使用selenium来驱动浏览器加载页面，获取JavaScrapt渲染后的页面HTML代码，而无须考虑网页的加载形式、接口是否加密等一系列复杂的问题。2.selenium总览浏览器驱动通过指定操作的浏览器驱动，我

2021-08-11 09:39:57 415

原创功能强大的python包（九）：matplotlib（数据可视化）

1.Matplotlib简介Matplotlib是一个python绘图库，它以硬拷贝格式和跨平台的交互式环境生成出版物质量的图形。利用它可以以非常少的代码量方便地绘制出我们常用的一些图表。Matplotlib可以绘制折线图、散点图、柱状图等几十种图表，满足科学研究的需要，是数据分析、可视化的不二之选。2.Matplotlib总览Matplotlib的体量远不止上图所述，它能够绘制多达几十种的图表，但我们最常用的图表就是上述七种：折线图、散点图、条形图、直方图、饼图、三维图、箱体图；而且绝大多数人

2021-08-05 16:27:03 313

原创功能强大的python包（八）：Scrapy （网络爬虫）

1.Scrapy简介Scrapy是用python开发的一个应用程序框架，用于对网站进行爬取和提取结构化数据，这些结构化的数据可用于数据挖掘、信息处理或历史存档等。Scrapy一站式解决了Requests库和BeautifulSoup库两个库所做的工作；并且完善了爬虫调度流程，简化了数据爬取任务。2.网络爬虫爬虫基本流程：发起请求：通过HTTP库向目标站点发起请求，等待目标站点服务器响应。获取响应：若服务器正常响应，会返回一个Response，该Response即为获取得页面内容，Resp

2021-08-02 11:25:10 300

原创功能强大的python包（八）：BeautifulSoup（HTML解析）

1.BeautifulSoup简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库；它能够通过转换器实现惯用的文档导航、查找、修改文档的方式。BeautifulSoup是一个基于re开发的解析库，可以提供一些强大的解析功能；使用BeautifulSoup能够提高提取数据的效率与爬虫开发效率。2.网络爬虫爬虫基本流程：发起请求：通过HTTP库向目标站点发起请求，等待目标站点服务器响应。获取响应：若服务器正常响应，会返回一个Response，该Respon

2021-07-30 08:27:00 493

原创功能强大的python包（六）：Requests（网络爬虫）

1.Requests简介Requests是基于urllib，使用Apache2 Licensed许可证开发的HTTP库。其在python内置模块的基础上进行了高度封装，使得Requests能够轻松完成浏览器相关的任何操作。Requests能够模拟浏览器的请求，比起上一代的urllib库，Requests实现爬虫更加便捷迅速。2.爬虫原理爬虫基本流程：发起请求：通过HTTP库向目标站点发起请求，等待目标站点服务器响应。获取响应：若服务器正常响应，会返回一个Response，该Respons

2021-07-28 09:16:16 423

原创功能强大的python包（五）：sklearn（机器学习）

1. sklearn简介sklearn是基于python语言的机器学习工具包，是目前做机器学习项目当之无愧的第一工具。sklearn自带了大量的数据集，可供我们练习各种机器学习算法。sklearn集成了数据预处理、数据特征选择、数据特征降维、分类\回归\聚类模型、模型评估等非常全面算法。2.sklearn数据类型机器学习最终处理的数据都是数字，只不过这些数据可能以不同的形态被呈现出来，如矩阵、文字、图片、视频、音频等。3.sklearn总览文章目录数据集sklearn.datasets数据

2021-07-26 09:40:32 1741 2

原创功能强大的python包（四）：OpenCV

1. OpenCV简介OpenCV是一个基于BSD许可（开源）发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和Mac OS操作系统上(未来期待在Harmony OS上运行）.它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。2. Opencv模块模块功能Core核心模块，包含最基础的操作Imgproc图像处

2021-07-17 17:05:03 425 7

原创功能强大的python包（三）：Seaborn

1. Seaborn简介Seaborn是一个基于matplotlib且数据结构与Pandas统一的统计图制作库。Seaborn库旨在以数据可视化为中心来挖掘并理解数据。Seaborn提供的面向数据集制图函数主要是对行列索引和数组的操作，包含对整个数据集进行内部的语义映射与统计整合。可以毫不夸张的说，你想象力能及的图表，Seaborn都能绘制！2. 样例数据本文所有的可视乎图表都是基于Seaborn自带的餐厅顾客消费数据集tips而绘制的。tips数据集前两条数据如下：Notota

2021-07-12 23:30:09 416

原创功能强大的python包（二）：Pandas

功能强大的python包（二）：Pandas1. Pandas简介Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）。Pandas是一种结构化数据工具集，可以用于数据挖掘、数据分析、数据清洗、数据可视化等。2. 数据类型Pandas库最重要的两种数据结构是Series、DataFrame。Series：一种类似于一维数组的对象，是由一组Numpy数据及该数据对应的数字序列构成；可以通过该数字序列访问Numpy数据。DadaFrame：一种表格型

2021-07-10 20:12:20 149 3

原创功能强大的python包（一）：Numpy

功能强大的python包（一）：Numpy1. Numpy简介Numpy是python的一种开源的数值计算扩展；Numpy可用来存储和处理大型矩阵；Numpy支持大量的维度数组与矩阵运算。2. 数据类型Numpy最基本最常用的数据类型是ndarray（n维数组），其中的很多方法也是针对ndarray对象而开发的；其与python自带数据类型list（列表）基本无差别；因此对于list对象的操作都可以运用到ndarray对象上。3. Numpy总览数据生成生成ndarray对象的方法汇

2021-07-09 17:45:27 142 4

人类之奴