小可爱的饲养员-CSDN博客

原创爬虫刷题-glidedsky

最近群里传的很火的一个爬虫练习网站.(网站做的非常走心, 支持一下.)url : http://glidedsky.com/做了几个题感觉非常有意思, 和大家交流分享一波.第一题:这里有一个网站，里面有一些数字。把这些数字的总和，输入到答案框里面，即可通过本关.这个咱就不说了, 把数据全都取出相加就可以通关了.第二题:在第一题的基础上加了翻页.在code中加个链接迭代就行了....

2019-11-13 13:24:07 2975 2

原创 Pycharm创建项目自动生成头部信息

打开PyCharm 左上角选择File-Settings如下所示在右侧编辑栏中输入:#!/usr/bin/python# -*- coding: UTF-8 -*-# time: ${DATE} ${TIME}可以设置的模板#!/usr/bin/python3可用的预定义文件模板变量为：$ {PROJECT_NAME} - 当前项目的名称。$ {NAME} - 在文件创建过...

2019-11-05 14:01:01 269

原创裁判文书网python爬虫分析2019-2-19

最近发现文书网又双叒更新了反爬策略.微微蛋疼抓包研究了一下发现post请求的时候多了个参数.

2019-02-19 16:41:48 2834 3

原创 scrapy的settings中的常用设置.

scrapy.settings中的的一些设置.# scrapy默认深度优先, 如果想换成广度优先..添加下面代码.DEPTH_PRIORITY = 1SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueueSCHED...

2019-01-20 12:37:36 822

原创如何用requests使用代理

@staticmethoddef Abuyun_proxy(): proxyHost = "http-dyn.abuyun.com" proxyPort = "9020" proxyUser = "阿布云账号" proxyPass = "keys" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)...

2019-01-20 12:23:57 1684

转载 Linux下查看指定进程的PID.

pgrep -l name[root@master ~]# pgrep -l python45086 python3pgrep的参数:-l 同时显示进程名和PID-o 当匹配多个进程时，显示进程号最小的那个-n 当匹配多个进程时，显示进程号最大的那个注：进程号越大，并不一定意味着进程的启动时间越晚查看指定名称的进程信息默认只显示PID 1: [root...

2019-01-20 12:21:21 25527 1

原创 Python实现PDF转文字.

安装依赖:pip install pdfminer3k# -*- coding:utf-8import sysimport importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManag...

2018-11-12 16:10:49 3709

原创 selenium模拟鼠标操作

方法列表perform(self): ---执行链中的所有动作reset_actions(self): ---清除存储在远端的动作click(self, on_element=None): ---鼠标左键单击click_and_hold(self, on_element=None): --鼠标左键单击，不松开context_click(self, on_e...

2018-11-07 18:29:34 1255

原创 Liunx系统安装/卸载Mysql及设置密码

Liunx系统安装/卸载Mysql及设置密码你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变删除mysql1.sudo apt-get autoremove --purge mysql-server-5.52.sudo apt-get remove mys...

2018-11-07 18:18:59 149

原创 docker基础

1. 什么是docker？Docker 是一个开源的应用容器引擎，基于 Go 语言并遵从Apache2.0协议开源。 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口（只能通过与宿主机即运行docker的机器进行通讯）,更重要的是容器性能开销极低你可...

2018-08-24 16:22:24 150

原创 Python闭包与装饰器

1.闭包函数引用def test1(): print("--- in test1 func----")# 调用函数test1()# 引用函数ret = test1print(id(ret))print(id(test1))#通过引用调用函数ret()运行结果:--- in test1 func----1402125711490401402125...

2018-08-24 15:14:12 194

原创 Python深拷贝、浅拷贝详解

1. 浅拷贝浅拷贝是对于一个对象的顶层拷贝通俗的理解是：拷贝了引用，并没有拷贝内容 2. 深拷贝深拷贝是对于一个对象所有层次的拷贝(递归) 3. 拷贝的其他方式分片表达式可以赋值一个序列字典的copy方法可以拷贝一个字典 4. 注意点浅拷贝对不可变类型和可变类型的copy不同copy....

2018-08-24 14:51:18 307

原创浅谈scrapy

1.为什么使用scrapy框架来写爬虫？在python爬虫中：requests + selenium 可以解决目前90%的爬虫需求，难道scrapy 是解决剩下的10%的吗？然而并不是这样。scrapy框架是为了让我们的爬虫更强大、更高效, 让我们写的爬虫更具有健壮性。接下来我们一起认识一下它吧。2.什么是scrapy？ Scrapy 使用了Twisted[‘tw...

2018-08-12 12:21:43 651

原创入坑爬虫(七)selenium爬取某网站招聘信息

1 什么是seleniumSelenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏.2 PhantomJS的介绍PhantomJS 是一个基于Webkit的“无界面”(headless)浏...

2018-08-09 14:08:43 1560

原创入坑爬虫(八)数据提取之xpath

lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息认识xml知识点： html和xml的区别xml中各个元素的的关系和属性xml的树结构&lt;bookstore&gt;&lt;book category="COOKING"&gt; &lt;title lang="en

2018-08-07 11:00:11 15851 2

原创入坑爬虫(六)某招聘网站信息采集

前面的章节中，我们说到了如何发送发送，对应的，回顾之前的爬虫流程，在发送完请求之后，能够获取响应，这个时候就需要从响应中提取数据了.1. 爬虫中数据的分类在爬虫爬取到的数据中有很多不同类型的数据,我们需要了解数据的不同类型来规律的提取和解析数据.根据响应的内容,我们可以将获得到的数据分为以下两类: - 结构化数据：json，xml等处理方式：直接转化为pyth...

2018-08-05 12:02:15 3805 1

原创入坑爬虫(五)Requests库处理cookie

requess模块处理cookie相关的请求爬虫中使用cookie为了能够通过爬虫获取到登录后的页面，或者是解决通过cookie的反扒，需要使用request来处理cookie相关的请求爬虫中使用cookie的利弊能够访问登录后的页面能够实现部分反反爬带上cookie的坏处: 一套cookie往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为...

2018-08-04 13:15:59 9888 2

原创入坑爬虫(四)Requests库的深入使用

上个小节我们学会使用了requests的get方法.下面我们开始学习如何使用requests库发送POST请求.哪些地方我们会用到POST请求？登录注册（ POST 比 GET 更安全）需要传输大文本内容的时候（ POST 请求对数据长度没有要求）1. requests发送post请求语法：用法： response = requests.post("http:...

2018-08-03 17:47:00 550

原创入坑爬虫(三)Requests库的基本使用

Requests库的基本使用为什么要学习requests模块,而不是urllib - requests的底层实现就是urllib - requests在python2 和 python3 中通用, 方法完全一样 - requests简单易用 - requests能够自动帮助我们解压(gzip压缩的等)响应内容requests模块发送简单的ge...

2018-08-02 18:29:52 517

原创入坑爬虫(二)编写第一个python小爬虫

准备工作编程语言: python3(本人用的是3.6版本)IDE(集成开发环境): 萌新推荐使用pycharm或python自带的IDLE.操作系统: Windows(考虑到多数小伙伴都是windows系统,后面的爬虫也都是在windows环境下操作)python的第三方库: requests 以管理员身份运行cmd在终端中输入: pip install request...

2018-08-02 17:24:10 1636

原创入坑爬虫(一)爬虫的基本概念

什么是爬虫网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序.原则上来说,只要是浏览器(客户端)能做的事情，爬虫都能够做.爬虫的分类和流程根据被爬网站的数量的不同，我们把爬虫分为：通用爬虫：通常指搜索引擎的爬虫(百度, 谷歌, 360等)聚焦爬虫：针对某种需求针对特定网站的爬虫...

2018-08-02 16:24:16 992

使用者应了解Django框架的基本操作 ## 功能介绍 - Django 自带的后台管理系统，方便对于文章、用户及其他动态内容的管理 - 文章分类、标签、浏览量统计以及规范的 SEO 设置 - 用户认证系统，在 Django 自带的用户系统的基础上扩展 Oauth 认证，支持微博、Github 等第三方认证 - 文章评论系统，炫酷的输入框特效，支持 markdown 语法，二级评论结构和回复功能 - 信息提醒功能，登录和退出提醒，收到评论和回复提醒，信息管理 - 强大的全文搜索功能，只需要输入关键词就能展现全站与之关联的文章 - RSS 博客订阅功能及规范的 Sitemap 网站地图 - 实用的在线工具 - 友情链接和推荐工具网站的展示 - 缓存系统，遵循缓存原则，加速网站打开速度 - RESTful API 风格的 API 接口

2020-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

我想养只喵

原创爬虫刷题-glidedsky

原创 Pycharm创建项目自动生成头部信息

原创裁判文书网python爬虫分析2019-2-19

原创 scrapy常用命令

原创 scrapy的settings中的常用设置.

原创如何用requests使用代理

转载 Linux下查看指定进程的PID.

原创 Python实现PDF转文字.

原创 selenium模拟鼠标操作

原创 Liunx系统安装/卸载Mysql及设置密码

原创 docker基础

原创 Python闭包与装饰器

原创 Python深拷贝、浅拷贝详解

原创浅谈scrapy

原创入坑爬虫(七)selenium爬取某网站招聘信息

原创入坑爬虫(八)数据提取之xpath

原创入坑爬虫(六)某招聘网站信息采集

原创入坑爬虫(五)Requests库处理cookie

原创入坑爬虫(四)Requests库的深入使用

原创入坑爬虫(三)Requests库的基本使用

原创入坑爬虫(二)编写第一个python小爬虫

原创入坑爬虫(一)爬虫的基本概念

2020最新品牌私域流量的数据化运营教程.pdf

izone-master.7z

Python数据挖掘入门与实践中文pdf版[21MB] 附随书源码

人人都是数据分析师

Python开发者110道笔试面试题

Python二级考试试题

空空如也

2020最新品牌私域流量的数据化运营教程.pdf

izone-master.7z

Python数据挖掘入门与实践 中文pdf版[21MB] 附随书源码

人人都是数据分析师

Python开发者110道笔试面试题

Python二级考试试题

空空如也

Python数据挖掘入门与实践中文pdf版[21MB] 附随书源码