不是方丈-CSDN博客

Linux 快速入门到实战【二】一、Linux用户与权限1. 用户和权限的基本概念1.1、基本概念用户是Linux系统工作中重要的一环, 用户管理包括用户与组管理在Linux系统中, 不论是由本级或是远程登录系统, 每个系统都必须拥有一个账号 , 并且对于不同的系统资源拥有不同的使用权限对文件 / 目录的权限包括:权限英文缩写数字序号读readr4写writew2执行executex1无权限-0在 L

2021-07-24 09:37:16 458 1

原创 Linux 快速入门到实战【一】

一、操作系统概述1. 计算机原理现代计算机大部分都是基于冯.诺依曼结构，该结构的核心思想是将程序和数据都存放在计算机中，按存储器的存储程序首地址执行程序的第一条指令，然后进行数据的处理计算。计算机应包括运算器、控制器、储存器、输入和输出设备五大基本部件。计算机内部采用二进制来表示指令和数据,将编写好的程序送入储存器中，然后启动计算机工作，勿需操作人员干预，能自动逐条取出指令和执行指令。计算机是由软件和硬件组成。硬件主要由CPU、存储设备、输入输出设备组成。软件包括操作系统

2021-07-24 00:27:18 761

原创爬虫-day08

文章目录上篇1. scrapy 运行日志和常见配置项[了解]2. 中国图书网案例[重点]下篇1. 八爪鱼采集器使用[了解]1.1 使用模板采集数据1.2 自定义数据采集普通翻页下拉翻页点击更多翻页1.3 八爪鱼高级使用上篇1. scrapy 运行日志和常见配置项[了解]常见配置项：ROBOTSTXT_OBEY：是否遵守robots协议，默认是遵守USER_AGENT ：设置请求头中的 User-AgentITEM_PIPELINES ：配置数据管道类，权重越小越优先执行DOWNLOADER_

2021-07-13 20:07:27 103

原创爬虫-day07

文章目录上篇1. scrapy 模拟登录[重点]2. scrapy 数据管道[重点]3. crawlspider爬虫下篇1. crawlspider爬虫[重点]2. scrapy 中间件3. 示例：随机设置请求头的User-Agent(重点)4. 示例：设置请求使用代理 IP[重点]5. 示例：腾讯招聘信息抓取[重点]上篇1. scrapy 模拟登录[重点]scrapy 请求直接携带 cookie：爬虫的父类中有一个 start_requests 方法，该方法使用起始 url 地址构造请求对象给引

2021-07-13 20:05:21 39

原创爬虫-day06

文章目录上篇1. scrapy 框架简介2. scrapy 工作流程[重点]3. scrapy 基本使用[重点]下篇1. scrapy 基本使用[重点]2. scrapy 数据建模[重点]3. scrapy 提取 url 构造新的请求对象[重点]4. scrapy.Request 类 meta 参数的使用[重点]5. 补充：scrapy 的配置项上篇1. scrapy 框架简介Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。同步和异步：

2021-07-13 20:01:05 58

原创爬虫-day05

文章目录上篇1. selenium其他使用(应用)2. 反爬虫的基本概念(了解)下篇1. 常见反爬和反反爬的方式2. 打码平台(重点)3. 有道翻译爬虫(重点)上篇1. selenium其他使用(应用)控制浏览器切换标签页：切换frame页面：iframe页面：一个html页面中，嵌套了另一个html页面.selenium处理cookie数据：控制浏览器执行 js 代码：页面等待：访问页面时，页面上的内容不是立刻加载完成了，定位查找页面元素时，可能需要一定时间的等待。1）强

2021-07-13 19:56:04 61

原创爬虫-day04

文章目录上篇1. xpath案例-百度贴吧(重点)2. BeautifulSoup4使用下篇1. bs4案例-糗事百科爬虫(重点)2. selenium功能简介3. selenium 基本使用(重点)上篇1. xpath案例-百度贴吧(重点)需求说明：给定一个贴吧的名字，抓取该贴吧中，第一页中帖子的标题、帖子的详情页url地址，以及帖子详情页中图片的链接，最终要将图片保存到本地。需要抓取的字段：帖子标题(title)帖子详情页url地址(detail_url)详情页所有图片url地址(i

2021-07-13 19:53:11 114

原创爬虫-day03

文章目录上篇1. 正则匹配语法2. re 模块的使用3. jsonpath 语法(重点)下篇1. jsonpath模块使用(重点)2. xpath 语法简介(重点)3. lxml模块基本使用(重点)4. xpath案例-百度贴吧上篇1. 正则匹配语法匹配单个字符：正则语法描述.匹配任意1个字符（除了\n）[]匹配[ ]中列举的字符\d匹配数字，即0-9\D匹配非数字，即不是数字\s匹配空白，即空格，tab键\S匹配非空白\w匹配

2021-07-13 19:48:18 72

原创爬虫-day02

文章目录上篇1. requests 请求时设置请求头(重点)2. requests 请求时携带查询参数(重点)3. GET 和 POST 请求的区别(了解)4. 使用代理的目的和代理分类5. requests 模块使用代理的基本语法(重点)6. 案例-使用代理请求唱吧网站(重点)7. 爬虫中使用 Cookie 的原因8. requests 请求携带 Cookie(重点)下篇1. requests 携带 Cookie(重点)2. 补充：将 cookie 字符串转换为 Python 字典(了解)3. 补充：Re

2021-07-13 19:41:09 76

原创爬虫-day01

文章目录上篇1. 数据分析的一般流程2. 为什么需要爬虫？3. 爬虫的流程(重点)4. HTTP 请求过程(重点)5. 完整 URL 地址的格式(重点)6. HTTP 请求报文格式7. HTTP 响应报文格式8. 状态保持机制下篇1. 浏览器开发者工具(重点)2. requests 模块简介3. requests 模块发送 GET 请求(重点)4. response 响应内容获取(重点)5. response 响应对象的其他属性6. 案例-保存网络图片(单张)7. 案例-保存网络图片(多张)上篇1. 数

2021-07-13 17:26:34 219

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

不是方丈

原创 Hadoop离线-day01

原创 Linux 快速入门到实战【二】

原创 Linux 快速入门到实战【一】

原创爬虫-day08

原创爬虫-day07

原创爬虫-day06

原创爬虫-day05

原创爬虫-day04

原创爬虫-day03

原创爬虫-day02

原创爬虫-day01

原创解决Vmware虚拟机桥接网卡问题

数据分析讲义(updated).zip

爬虫讲义【2021最新版】【超详细】

Conemu＋Clink【最新版】

空空如也

数据分析讲义(updated).zip

爬虫讲义【2021最新版 】【超详细】

Conemu＋Clink【最新版】

空空如也

爬虫讲义【2021最新版】【超详细】