2 浅吻@

尚未进行身份认证

暂无相关简介

等级
TA的排名 14w+

爬虫第一篇

爬虫1.环境:安装Anconda,是一个科学计算的集成开发环境(集成了好多库,ipython等)2.chrome浏览器插件:XPath Helper,Proxy-SwitchyOmega-Chromium-2.5.153.爬虫的请求模块:1、版本1、python2 :urllib、urllib22、python3 :urllib.request2.urllib.request 用法...

2019-03-17 12:04:19

爬虫第二篇

爬虫第二篇1.将爬取的数据存入数据库1. Anaconda安装模块 1. 进入到Anaconda Prompt终端(管理员身份) 2. 执行安装命令 conda install pymongo conda install pymysql 2. 远程存入MySQL数据库 1. 开启远程连接, 注释掉: # bind-address=127.0....

2019-03-17 12:20:50

爬虫第三篇

爬虫第三篇requests模块get请求import requests# 1.发get请求res = requests.get(url,params,headers,proxies,auth,verify,timeout)# 2.响应 编码格式res.encoding = "utf-8"# 3. 获取htmlhtml = res.textrequests.get(url,p...

2019-08-13 14:17:25

爬虫第四篇

爬虫第四篇Ajax的动态加载处理方法对于json格式的相应,如果页面是ajax动态加载的,可用通过设置它的limit(每次页面加载的数量)巧妙的避开,也可以通过自动化工具selenium来处理ajax的动态加载import requestsimport jsonimport pymysqlclass DoubanSpider: def __init__(self): ...

2019-08-13 18:41:12

爬虫第五篇

爬虫第五篇BeautifulSoup + requests库使爬虫变得非常的简单BeautifulSoup库通俗来说是解析、遍历、维护“标签树”(例如html、xml等格式的数据对象)的功能库Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整...

2019-08-14 13:01:47

爬虫第六篇

爬虫第六篇python采用 多进程/多线程/协程 写爬虫从操作系统的角度:进程和线程,都是一种CPU的执行单元。进程:表示一个程序的上下文执行活动(打开、执行、保存…)线程:进程执行程序时候的最小调度单位(执行a,执行b…)一个程序至少有一个进程,一个进程至少有一个线程。并行:多个CPU核心,不同的程序就分配给不同的CPU来运行。可以让多个程序同时执行并发:单个CPU核心,在一个时...

2019-08-14 20:34:37

爬虫第七篇(scrapy 框架简介)

文档地址:https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/signals.htmlscrapy 框架简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便Scrapy架构图[外...

2019-08-24 17:20:13

checklist

Document 基础能力架构 规范能力 函数注释 1.注释有效性:应该说明函数的用途和使用场景,函数内部的注释应该强调业务逻辑和设计思路,让后期的维护人员可以快速的明白 功能注释规范 日志规范性 1.日志要考虑运维人员和技术支持能不能看懂 2.日志的有效性,比如先说明哪个action...

2019-09-04 16:00:23

Flask中怎么用celery做定时任务

CeleryCelery 是一个异步任务队列,一个Celery有三个核心组件:Celery 客户端Celery workers: 运行后台作业的进程消息代理,最常用的代理就是 RabbitMQ 和 RedisFlask中怎么使用celery做定时任务config.py# coding: utf-8import osfrom datetime import timedelta...

2019-12-02 19:36:11

Dockerfile

Dockerfile1.什么是DockerfileDockerfile 是一个文本文件,里面包含了打包Docker镜像所需要用到的命令。Docker 可以通过读取 Dockerfile 里面的命令来自动化地构建Docker镜像。通过执行 docker build 就可以启动这样的一个自动化流程。docker bulid -f Dockerfile .2.容器镜像层的理解Docker镜像...

2019-11-19 17:08:39

运维常识

运维概述什么是运维服务器的运行维护名词IDC(互联网数据中心)服务器租用 机柜租用监控软件zabbix nagios cactti常用Linux操作系统CentOSUbuntuRedHat虚拟化nginx反向代理流程客户端 -> 反向代理服务器 -> 把请求转发给内部网络的WEB服务器作用保证内网安全统一调度服务器,是服务器负载均衡,优化网站的...

2019-09-10 17:34:59

Mock和MagicMock

Mock和MagicMock转载:https://blog.csdn.net/lk142500/article/details/85881426在单元测试进行的同时,就离不开mock模块的存在,初次接触这个概念的时候会有这样的疑问:把要测的东西都模拟掉了还测试什么呢?  但在,实际生产中的项目是非常复杂的,对其进行单元测试的时候,会遇到以下问题:•接口的依赖•外部接口调用•测试环境非常...

2019-08-09 16:58:48

vim常用操作和使用技巧12

vim常用操作和使用技巧移动光标在 vi 中, 移动光标和编辑是两件事, 正因为区分开来, 所以可以很方便的进行光标定位和编辑. 因此能更快一点移动光标是很有用的. w 移动光标到下一个单词开头. e 移动光标到下一个单词结尾 b 移动光标到上一个单词. 0 移动...

2019-08-08 20:12:54

好用的工具推荐

1.typora markdown文本编辑2.xmind 思维导图3.endrawmax 画流程图的4.Everything 文本搜索工具5.Beyond Compare5.Postman 发送请求6.Git7.Source Tree8.VSCode9.Sublime10.Pycharm11.Xshell12.MobaXterm13.Xftp14.WinSC...

2019-08-08 16:37:42

AJAX

AJAXAJAX:通过 JS 异步的向服务器发送请求并接受响应数据,响应数据的格式原来是xml,后来变成了JSON同步请求:当客户端向服务器发送请求时,服务器在处理的过程中,浏览器只能等待,效率较低异步请求:当客户端向服务器发送请求时,服务器在处理的过程中,浏览器可以做其他的操作,不需要一直等待AJAX的优点:异步访问局部刷新AJAX的使用场景:搜索建议表单验证前后端...

2019-06-16 20:40:17

IO 多路复用

IO 多路复用IO密集型程序 : 在程序执行过程中存在大量IO操作,而cpu运算操作较少。消耗cpu较少,运行效率较低计算密集型程序(cpu密集型程序):在程序执行中cpu运算较多,IO操作相对较少。消耗cpu大,运行速度快IO分类:阻塞IO非阻塞IOIO多路复用阻塞IO:是IO的默认形态,是效率较低的一种IO情形。阻塞情况:因为某种条件没有达成造成的阻塞e.g. a...

2019-05-25 11:27:27

网络编程1

网络编程ISO七层模型 ——》网络通信工作流程的标准化应用层 : 提供用户服务,具体功能由特定的程序而定表示层 : 数据的压缩优化,加密会话层 : 建立应用级的连接,选择传输服务传输层 : 提供不同的传输服务。流量控制网络层 : 路由选择,网络互连链路层 : 进行数据转换,具体消息的发送,链路连接物理层 : 物理硬件,接口设定,网卡路由交换机等cookie高内聚:模块功能尽可能...

2019-05-25 10:38:16

Django框架全面讲解二

Django框架全面讲解二七、中间件(MiddleWare)django 中的中间件(middleware),在django中,中间件其实就是一个类,在请求到来和结束后,django会根据自己的规则在合适的时机执行中间件中相应的方法。在django项目的settings模块中,有一个 MIDDLEWARE_CLASSES 变量,其中每一个元素就是一个中间件,如下图中间件中可以定义五个方法...

2019-05-24 19:54:33

Scrapy爬虫框架

Scrapy爬虫框架一、Scrapy五大基本构成:Scrapy框架主要由五大组件组成,它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。(1)、调度器(Scheduler):调度器,说白了把它假设成为一个URL(抓取网页的网址或...

2019-05-23 21:31:40

Django框架全面讲解

转:https://www.cnblogs.com/LiCheng-/p/6920900.htmlDjango框架全面讲解Python的WEB框架有Django、Tornado、Flask 等多种,Django相较与其他WEB框架其优势为:大而全,框架本身集成了ORM、模型绑定、模板引擎、缓存、Session等诸多功能。本文将以下方面带大家全面了解Django框架流程基本配置路由系统...

2019-05-23 21:30:20

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。