自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (3)
  • 收藏
  • 关注

原创 Hadoop离线-day01

2021-08-09 00:12:48 76

原创 Linux 快速入门到实战【二】

Linux 快速入门到实战【二】一、Linux用户与权限1. 用户和权限的基本概念1.1、基本概念用户 是Linux系统工作中重要的一环, 用户管理包括 用户 与 组 管理在Linux系统中, 不论是由本级或是远程登录系统, 每个系统都必须拥有一个账号 , 并且对于不同的系统资源拥有不同的使用权限对 文件 / 目录 的权限包括:权限英文缩写数字序号读readr4写writew2执行executex1无权限-0在 L

2021-07-24 09:37:16 458 1

原创 Linux 快速入门到实战【一】

一、操作系统概述1. 计算机原理​ 现代计算机大部分都是基于冯.诺依曼结构,该结构的核心思想是将程序和数据都存放在计算机中,按存储器的存储程序首地址执行程序的第一条指令,然后进行数据的处理计算。​ 计算机应包括运算器、控制器、储存器、输入和输出设备五大基本部件。​ 计算机内部采用二进制来表示指令和数据,将编写好的程序送入储存器中,然后启动计算机工作,勿需操作人员干预,能自动逐条取出指令和执行指令。​ 计算机是由软件和硬件组成。硬件主要由CPU、存储设备、输入输出设备组成。软件包括操作系统

2021-07-24 00:27:18 761

原创 爬虫-day08

文章目录上篇1. scrapy 运行日志和常见配置项[了解]2. 中国图书网案例[重点]下篇1. 八爪鱼采集器使用[了解]1.1 使用模板采集数据1.2 自定义数据采集普通翻页下拉翻页点击更多翻页1.3 八爪鱼高级使用上篇1. scrapy 运行日志和常见配置项[了解]常见配置项:ROBOTSTXT_OBEY:是否遵守robots协议,默认是遵守USER_AGENT :设置请求头中的 User-AgentITEM_PIPELINES :配置数据管道类,权重越小越优先执行DOWNLOADER_

2021-07-13 20:07:27 103

原创 爬虫-day07

文章目录上篇1. scrapy 模拟登录[重点]2. scrapy 数据管道[重点]3. crawlspider爬虫下篇1. crawlspider爬虫[重点]2. scrapy 中间件3. 示例:随机设置请求头的User-Agent(重点)4. 示例:设置请求使用代理 IP[重点]5. 示例:腾讯招聘信息抓取[重点]上篇1. scrapy 模拟登录[重点]scrapy 请求直接携带 cookie:爬虫的父类中有一个 start_requests 方法,该方法使用起始 url 地址构造请求对象给引

2021-07-13 20:05:21 39

原创 爬虫-day06

文章目录上篇1. scrapy 框架简介2. scrapy 工作流程[重点]3. scrapy 基本使用[重点]下篇1. scrapy 基本使用[重点]2. scrapy 数据建模[重点]3. scrapy 提取 url 构造新的请求对象[重点]4. scrapy.Request 类 meta 参数的使用[重点]5. 补充:scrapy 的配置项上篇1. scrapy 框架简介Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。同步和异步:

2021-07-13 20:01:05 58

原创 爬虫-day05

文章目录上篇1. selenium其他使用(应用)2. 反爬虫的基本概念(了解)下篇1. 常见反爬和反反爬的方式2. 打码平台(重点)3. 有道翻译爬虫(重点)上篇1. selenium其他使用(应用)控制浏览器切换标签页:切换frame页面:iframe页面:一个html页面中,嵌套了另一个html页面.selenium处理cookie数据:控制浏览器执行 js 代码:页面等待:访问页面时,页面上的内容不是立刻加载完成了,定位查找页面元素时,可能需要一定时间的等待。1)强

2021-07-13 19:56:04 61

原创 爬虫-day04

文章目录上篇1. xpath案例-百度贴吧(重点)2. BeautifulSoup4使用下篇1. bs4案例-糗事百科爬虫(重点)2. selenium功能简介3. selenium 基本使用(重点)上篇1. xpath案例-百度贴吧(重点)需求说明:给定一个贴吧的名字,抓取该贴吧中,第一页中帖子的标题、帖子的详情页url地址,以及帖子详情页中图片的链接,最终要将图片保存到本地。需要抓取的字段:帖子标题(title)帖子详情页url地址(detail_url)详情页所有图片url地址(i

2021-07-13 19:53:11 114

原创 爬虫-day03

文章目录上篇1. 正则匹配语法2. re 模块的使用3. jsonpath 语法(重点)下篇1. jsonpath模块使用(重点)2. xpath 语法简介(重点)3. lxml模块基本使用(重点)4. xpath案例-百度贴吧上篇1. 正则匹配语法匹配单个字符:正则语法描述.匹配任意1个字符(除了\n)[]匹配[ ]中列举的字符\d匹配数字,即0-9\D匹配非数字,即不是数字\s匹配空白,即 空格,tab键\S匹配非空白\w匹配

2021-07-13 19:48:18 72

原创 爬虫-day02

文章目录上篇1. requests 请求时设置请求头(重点)2. requests 请求时携带查询参数(重点)3. GET 和 POST 请求的区别(了解)4. 使用代理的目的和代理分类5. requests 模块使用代理的基本语法(重点)6. 案例-使用代理请求唱吧网站(重点)7. 爬虫中使用 Cookie 的原因8. requests 请求携带 Cookie(重点)下篇1. requests 携带 Cookie(重点)2. 补充:将 cookie 字符串转换为 Python 字典(了解)3. 补充:Re

2021-07-13 19:41:09 76

原创 爬虫-day01

文章目录上篇1. 数据分析的一般流程2. 为什么需要爬虫?3. 爬虫的流程(重点)4. HTTP 请求过程(重点)5. 完整 URL 地址的格式(重点)6. HTTP 请求报文格式7. HTTP 响应报文格式8. 状态保持机制下篇1. 浏览器开发者工具(重点)2. requests 模块简介3. requests 模块发送 GET 请求(重点)4. response 响应内容获取(重点)5. response 响应对象的其他属性6. 案例-保存网络图片(单张)7. 案例-保存网络图片(多张)上篇1. 数

2021-07-13 17:26:34 219

原创 解决Vmware虚拟机桥接网卡问题

2021解决Vmware虚拟机桥接网卡问题最近学习KALI LINUX时,用Vmware设置虚拟机网络时,选择了桥接模式。前两天在桥接模式网络下虚拟机网络一切正常,但是昨天突然发现桥接模式下网络无法使用,虚拟机网络图标一直在转圈,然后显示连接失败,重复循环。最终解决如下:首先确保虚拟机桥接网络设置正确,下面是正确配置:然后打开虚拟机,编辑网络连接设置,把IPv4设置中动态地址分配改为手动分配。确保主机IP地址和虚拟机IP地址在同一个网段下,DNS地址不要忘记设置,否则无法联网。最后用pin

2021-04-04 23:55:07 3499 3

数据分析讲义(updated).zip

python数据分析

2021-07-19

爬虫讲义【2021最新版 】【超详细】

爬虫讲义【day1-day8】 【1.爬虫基础知识、2 requests模块、3. 数据提取、4. selenium、 5. 反爬和反反爬6. Scrapy框架、7. 八爪鱼采集器、8. 爬虫使用软件说明】

2021-07-15

Conemu+Clink【最新版】

Conemu+Clink 打造替代cmd的高效终端工具

2021-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除