Jeeson_Z-CSDN博客

原创 HTTP协议（浅说）

（上网就是把人家主机上的资源弄到你的主机上） 1. HTTP：（Hype Text Transfer Protocol）超文本传输协议,，协议就是一套规则 2. 超文本：纯文本就是纯粹的文字信息的文本，对应的超文本就是包含视频、音频、图片等多媒体信息的文本 3. URL（UniformResource Location）统一资源定位符，用...

2018-09-24 19:44:50 396

原创时间管理（5：行动派）

既然已经制定了可以行动的步骤了，那接下来按照步骤干活岂不就像按地图走路一样小 case 了！但这个步骤中还是有一些小问题要注意滴 1. 专注每一步要开始行动前一定要佛系：清空大脑，关掉手机不重要的通知，找个不被打扰的环境。然后阅读制定了的步骤说明书，专心地完成每个步骤，做每一步的时候心里不要挂念这整个任务还有多少啊，下步是什么啊... 这些都会扰乱你，放下这些念想，你...

2018-09-17 22:06:33 509

原创时间管理（4：步骤分解）

当成功使用 SMART 工作原则进行目标任务的合格化后，下一步就是把任务分解成可以行动的指导步骤了 1. 流程设计完成一个任务往往不只一条途径，但最优的途径往往只有一条，可是现在并没有方法保证一定找到最优的那条，但有方法找到相对优势的一条，那我们要如何找到呢？这里有几个原则可以帮助你尽量挑到好的路径流程，拿写软件举例（1）风险更小：倘若你辛辛苦苦好不容...

2018-09-17 21:20:00 2480

原创时间管理（3：SMART原则）

筛选完要做的事后（主要是第四象限的重要不紧急），我们需要先把这些事先变为一个合格的目标任务，那为什么要变为目标任务呢？写做什么事不行吗？什么样的目标才是合格的？学完 SMART原则你就明白了 SMART 目标管理原则S：（Specific）目标必须是具体的。例如你的目标不能是上个培训课来提升自己的业务能力，“业务能力”这种词很模糊抽象，这样的目标你永远无法知道自己实现没有。目标应该是...

2018-09-17 16:39:56 6975

原创时间管理（2：四象限法则）

每个人的时间总是有限的，不可能什么事都做，注定只能选择其中的一部分，可时间这么宝贵，该选择哪一部分呢？本篇就来介绍筛选利器：四象限法则四象限法则根据紧急程度和重要程度把所有的事分为四类：1. 重要又紧急2. 重要但不紧急3. 不重要却紧急4. 既不重要也不紧急在面对众多事情时，你先建这么张表然后根据你面对的事，把它划分到对应的象限里，这就是四象限法则划分方法：（同...

2018-09-17 16:36:59 5352

原创时间管理（1：时间都去哪了）

是不是一天过去了预计做的是还没做完？是不是制定的目标迟迟不肯开动？是不是怀疑自己拖延症晚期呢？...别担心，你当然不是拖延症晚期，追求安逸、规避不适是人类的天性，每个人都被设定成这个样子，而你不能按照预期完成事情，或许只是因为你是一个糟糕的时间管理者，缺乏时间管理而已，本系列文章就来介绍时间管理方法，以帮助你更好的做事、更好的生活 1. 时间记录表想要知道自己为什么没完成，...

2018-09-17 13:02:01 934

之前我们依次介绍了 Models、Admin、URLs、和 Views，本篇再来介绍 Templates，完事之后一个简单但完整的 Django 框架就算是走一遍了，现在我们就来填上篇留下的 polls/index.html、polls/detail.html、polls/results.html作为最终返回给用户的页面模板，真正想写好还需要前端知识，初次之外还需要掌握 Django 的模板语...

2018-09-16 11:16:51 482

原创 Django基础（5：项目之Views）

上篇我们介绍 URLs 时留下了 Views 的坑没填，没办法，Views 作为整个 Django 框架的核心，跟很多模板都深刻绑定在一起本篇就来介绍这个重中之重：Views1. 类视图和函数视图之前留下了 IndexView、DetailView、ResultsView、vote 没写as_view() 代表前三个是类视图，第四个 vote 是函数视图，视图就是用来实现业...

2018-09-15 23:22:19 1192

原创 Django基础（4：项目之URLs）

前面通过 Models 和 Admin 我们实现了对数据的创建和管理，就算是把数据库部分给准备好了回到第一篇（https://blog.csdn.net/Jeeson_Z/article/details/82711620）给出的图（心中一定要时刻有这张图，编写过程才不会迷路）客户端发来的请求先经过 WSGI ，但 Django 已经为我们准备好了 WSGI，就在 mysite/w...

2018-09-15 21:05:12 1887

原创 Django基础（3：项目之Admin）

上篇配置了数据库、编写完 Models 后，我们就不需要再关心数据库了，那我们如果想要修改数据要怎么做呢？方法还是很多的，比如使用 Django 提供的数据库 API（API常用操作：https://www.cnblogs.com/zhming26/p/6265652.html）不过最小白的还是在管理员页面直接对数据进行增删改查，这篇就来介绍管理员 Admin1. 创建管理员账号 ...

2018-09-15 19:55:20 353

原创 Django基础（2：项目之Models）

准备工作1. 安装 django 激活一个虚拟环境后（例如我的是 csdn），运行命令 conda install django 进行安装检测是否安装成功：运行命令 python -m django --version，如果显示版本号则代表成功 2. 创建项目选择想要的路径，运行命令：django-admin startproject ...

2018-09-15 14:58:46 436

原创 Django基础（1：架构流程与目录）

Django 是 python 做 web 开发的一个很著名的框架，很多大型网站（比如豆瓣、YouTube）都用它开发，下面就来介绍一下 Django 的架构原理原理1. MVT设计模式 M（Models）：数据模型，直接映射到数据库 V（Views）：功能视图，编写你的业务功能 T（Templates）：页面模板，就是显示在浏...

2018-09-15 12:07:45 729

原创 python爬虫基础（15：补录环境安装）

1. 环境安装由于每个人的硬件设备、操作系统和使用习惯的不同，再加上环境安装的过程中特别多的不可控因素以及可能性，我觉得编写每个软件或模块的安装方法十分耗费心力，因此一直没有给出环境安装方法，在此抱歉在学习过程中参考了崔庆才的《Python3网络爬虫开发实战教程》，其中作者耗费心血地写了关于环境的安装，在此就厚着脸贴出链接了：https://cuiqingcai.com/5052.html...

2018-09-12 15:47:45 616

原创 python爬虫基础（14：Scrapy框架之项目演示）

上篇（https://blog.csdn.net/Jeeson_Z/article/details/82591625）介绍了Scrapy的原理流程和结构，现在就来通过案例介绍编写流程，项目选用我们的老朋友：豆瓣电影Top250创建spider命令创建：scrapy genspider douban https://www.douban.com （douban是自己命名的爬虫，后面是允...

2018-09-12 15:12:03 552

原创 python爬虫基础（13：Scrapy框架之架构流程与目录）

框架对于特别小的爬虫，一般直接编写就可以了，但一般面对一个项目级别的爬虫，都选择用框架框架可以理解为一个等你填坑的代码： 1.为你编写好那些必须的、重复的代码 2. 为你模块化好每一个组件，自动建立组件之间的联系，这样就方便使用者清晰了解它的流程和各功能的定制Scrapy框架架构和原理Scrapy就是一个爬虫常用的框架，我们先来了解一下它的结构和...

2018-09-12 11:06:49 459

原创 python爬虫基础（12：app数据爬取）

我们之前一直都在爬取网页数据，但有些企业并没有提供web网页服务，而是提供了app服务，还有些web网页数据的各种反爬虫措施太牛逼，这时候如果从app端爬取兴许更容易得多，本篇就来介绍app数据如何爬取作为案例，选用简单的王者荣耀盒子的英雄胜率排行榜方法：1. 利用抓包工具（例如 Fiddler）得到包含所需数据的 url 以及数据的格式2. 用代码模拟数据请求操作步骤：...

2018-09-02 14:51:02 9136 1

原创 python爬虫基础（11：动态网页之使用selenium）

为什么要用selenium？前面我们介绍了通过分析 Ajax 请求获取数据，但有时 Ajax 请求的数据被加密了，还有并不是所有的动态网页都是使用 Ajax 的，当我们没有招应付动态页面的时候，就要请出大杀器——selenium， selenium不用去考虑 js 是怎样生成新数据的，而真正实现多见即所得：通过模拟下拉刷新后，js 就自动生成了新的网页源码，在浏览器中看到的页面是什么样，得到的...

2018-08-26 09:52:18 671

原创 python爬虫基础（10：动态网页之Ajax）

动态网页是什么？有些时候，我们下载到的源码跟浏览器开发者工具中看到的不一样，就是因为很多代码都是在使用过程中有 js 后来生成的，页面不会变动的叫静态网页，页面会因 js 而变动的就叫动态网页本文先讲利用 Ajax 技术的动态网页Ajax 是什么？Ajax (asynchronous JavaScript and XML)：翻译为异步刷新的 JavaScript 和 XML工作...

2018-08-25 21:06:58 1283

原创 python爬虫基础（9：验证识别之滑块验证）

上篇我们借助 tesserocr 库解决了图片码的识别验证，但在实际生活中，用得更多的是滑动验证，这篇就来解决滑动验证的问题滑动验证大部分网站都采用的是滑动验证，就是拖动滑块拼接图片，其中又大都采用极验（http://www.geetest.com/）所提供的技术，官方网页如下本篇案例选用哔哩哔哩动画验证登录（https://passport.bilibili.com/login）...

2018-08-25 09:30:21 33203 5

原创 python爬虫基础（8：验证识别之图片码验证）

上篇文章讲了模拟登录，在有些时候，我们想要登录成功，还需要通过一些验证，这次就来讲讲这种情况的处理tesserocr模块类似于下图中的这种验证，我们可以通过一个图片识别库 tesserocr 来进行识别例如要识别这张图片代码：# 导入Image图片对象from PIL import Image# 导入图片识别包import tesserocr# op...

2018-08-16 17:54:06 2106 2

原创 python爬虫基础（7：模拟登录）

有些网站需要先登录才能浏览一些信息，那我们面对这种情况要怎么爬取呢？也就是说如何使用爬虫模拟登录cookies 概念网页都是使用 http 协议进行访问的，但 http 协议是无记忆的就是是它不会记得你是谁，所以需要有记忆信息的网站，比如需要登录的淘宝，就自动为每个用户创建了一个记忆功能的东西，这样的下次你再访问它，它就可以凭借这个东西认出你是谁这个记忆功能的东西，在服务器端是...

2018-08-11 21:07:38 1177 1

原创 python爬虫基础（6：IP代理池）

除了上篇文章（https://blog.csdn.net/Jeeson_Z/article/details/81409730）提到的 UA检测外反爬措施还有 IP检测IP检测有些网站当检测到同一个IP连续快速访问时，可能会把这个IP拉黑，封锁掉爬虫的速度贼快，有极大的可能被网站封锁IP代理相当于一个中介你把请求给他，他帮你安排不同的IP访问，相当于是很多不同的IP在...

2018-08-05 22:05:03 875

原创 python爬虫基础（5：UA伪装）

前面的几篇我们了解了爬虫的大致过程源码下载 + 数据解析 + 数据保存对应粘贴了 requests、BeautifulSoup、re 的介绍连接、演示了利用 pymysql 模块连接并保存到 MySQL 的过程但在下载源码中会遇到各种问题，这次来讲最简单的反爬策略：UA禁止 UA（User-Agent）是什么？User-Agent：翻译是用户代理，其实就是用户的身份当用浏览...

2018-08-04 18:51:48 8351 3

原创 python爬虫基础（4：数据保存）

保存数据的方式有很多，比如之前文章里用open()、write()保存到文本本篇将介绍保存到 mysql数据库的方法准备工作建数据表、安装mysql的python驱动模块 pymysql案例依旧选择前面文章（https://blog.csdn.net/jeeson_z/article/details/81281770）的豆瓣电影Top250连接数据库（创建一个连接对象） ...

2018-07-30 20:35:57 726 4

原创 python爬虫基础（3：数据提取之正则）

正则几乎可以提取任何数据，但是特别难写，一般其他解析库不能提取的时候才使用正则正则还可以用于数据清洗，本文案例的正则只用于简单的数据清洗正则介绍链接：https://cuiqingcai.com/977.html案例是上一篇（https://blog.csdn.net/jeeson_z/article/details/81279249）的豆瓣电影Top250上次得到的结果：...

2018-07-30 11:41:47 1144

原创 python爬虫基础（2：数据提取之BeautifulSoup）

数据提取工具有很多，这里只介绍BeautifulSoup的简单使用和小案例因为有写的很好的介绍博客，所以我直接粘链接BeautifulSoup介绍链接：https://cuiqingcai.com/1319.html案例依旧选用没有反爬的豆瓣电影Top250第一步：获取源码简单的三句话# 导入requests模块import requests# 导入Beautif...

2018-07-30 10:24:27 1464

原创 python爬虫基础（1：概述 requests模块引入）

爬虫：将数据从网上提取下来并保存的过程，分为三大步下载源码把包含数据的源码下载下来，需要学习requests模块的使用，这个过程是爬虫的难点，因为有反爬虫的措施、动态登录验证等数据提取从网页源码里面提取出需要的数据，这一步相对，简单只需要学习相关的库的使用，例如BueatifulSoup、re正则数...

2018-07-26 11:00:47 881

Jeeson_Z的博客