自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 redis|必会

1. Window 下安装下载地址:https://github.com/MSOpenTech/redis/releases。打开cmd命令窗口,使用命令进行安装和注册redis到window服务安装命令:redis-server.exe --service-install redis.windows.conf --loglevel verbose进入安装的目录下,然后运行dos命令,执行以下语句(如果路径已配置在环境配置的path路径下,无需进入安装的目录下)启动服务命令:redis-serve

2020-06-09 19:26:38 326

原创 selenium爬取甘肃建筑业信息

目标网址:http://42.123.101.210:8088/gzzhxt/采用技术:selenium技术进行爬取网站分析1. 网页分析分析网页,发现我们要爬取的公司信息是动态加载的,可以从两方面入手,法一:接口,需要构建请求头,但是分析发现请求头中的data数据是加密过的这给我们带来了很大的困难,翻页以后对比各页的url,发现接口的url并没有改变,但是在preview中发现pageIndex确实是改变的,这对我们多页爬取又设置了一个大的坑,采用接口的形式爬取很不明智。法二:采用seleni

2020-05-21 00:07:46 332

原创 selenium-对话框处理

弹出框有两种:页面弹出框(可定位元素能操作)、Windows弹出框(不能直接定位)1. 页面弹出框driver = webdriver.Chrome()driver.get("https://www.baidu.com")driver.maximize_window()#点击百度登录按钮driver.find_element_by_xpath('//*[@id="u1"]//a[@name="tj_login"]').click()#等待百度登录弹出框中 要出现的元素可见ele_id =

2020-05-20 17:55:49 1190

原创 python-等待

强制等待import timetime.sleep(10)sleep()函数为强制等待时间,即等待时间固定,不受其他影响,参数单位默认为秒2. 隐式等待from selenium import webdriverdriver = webdriver.Chrome()driver.implicitly_wait(10) # secondsdriver.get('https://www.baidu.com')bai = driver.find_element_by_id('sus') .

2020-05-19 00:44:21 2516

原创 selenium实现拉钩爬虫

在这前通过接口分析拉钩网站,发现其反爬虫措施比较多,爬取比较麻烦,在这一章节,采用selenium方法进行爬虫设计。1. 初始化采用类模式的形式设计实现,先初始化自己的的信息,实现代码如下:chrome_driver = r"F:\python\python_environment\chromedriver.exe" def __init__(self): self.driver = webdriver.Chrome(executable_path=self.chrome_d

2020-05-18 21:36:30 342 3

原创 接口实现拉钩爬虫

拉勾网是个反爬措施比较多的网站,其中有许多需要我们调试分析学习的地方,本章就以拉钩网上遇见的问题进行分析,然后进行爬虫设计。1. 网页分析打开网页链接(这里我是用python关键字搜索的):https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=之后查看网页源代码,搜索岗位信息(Ctrl+f),发现我们所需的数据不在网页源代码中出现,而是通过ajax接口把数据传递过来的。拉钩网是一个典型的

2020-05-18 17:10:11 692 1

原创 动态网页数据分析

什么是AjaxAjax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式网页应用的网页开发技术。Ajax 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。使用Ajax加载的数据,即使使用了JS,将数据渲染到了浏览器中,在 右键-查看网页源代码还是不能看到通过Ajax加载的数据,

2020-05-08 23:33:12 899

原创 爬取多本小说

目标网站笔趣阁全部小说栏的小说网址:http://www.xbiquge.la/xiaoshuodaquan/页面解析爬取流程:1. 请求网站拿到数据,抽取小说名创建文件夹,抽取小说链接解析网页发现,所有的书和其连接都是在相同在相同的标签下,极大的降低了我们爬取不同类别小说的难度,爬取书名以后需要将书名作为文件名,以便于之后本书章节的存储。实现代码如下: def start_...

2020-05-04 00:56:48 947 1

原创 git|必会知识

git基础知识1. 注册注册用户名和邮箱(user.name为自己的用户名)git config --global user.name “user.name”git config --global user.email “user.email”2. github中ssh-key检测设置查看是否设置ssh钥匙cd ~/.ssh如果没有钥匙,执行命令生成钥匙(根据提示:...

2020-05-01 01:01:33 127

转载 windows下mongodb及其可视化工具Robomongo的安装使用

参考文章连接:https://blog.csdn.net/chenxi_li/article/details/94636171

2020-04-30 10:15:37 198

原创 scrapy的介绍以及基本使用

爬取目标网站:http://quotes.toscrape.com/流程:抓取第一页:请求第一页的url并得到源代码,进行下一步分析获取内容和下一页的链接:分析源代码,提取首页内容,获取下一页链接等待进一步爬取保存爬取结果:将爬取结果保存为特定格式如文本,数据库翻页爬取:请求下一页信息,分析内容并请求下一页链接...

2020-04-26 23:42:27 1123

原创 python的pip安装提速方法

Mac和Linux配置步骤1、打开terminal2、输入命令:mkdir .pipvim .pip/pip.conf(这两步是在家目录下新建文件: .pip/pip.conf)在这个文件中写入如下内容:[global]index-url = https://pypi.doubanio.com/simple/timeout = 1000【install】use-mirrors...

2020-04-22 15:04:41 228

原创 Appium环境搭建和检测

AppiumAppium优点开源跨架构:NativeApp、Hybird App、Web App跨设备:Android、iOS、Firefox OS不依赖源码使用任何WebDriver 兼容的语言来编写测试用例。比如 Java, Objective-C, JavaScript with Node.js, PHP, Python, Ruby, C#, Clojure, 或者 Perl....

2020-04-19 20:41:50 830

原创 mysql | 必会知识

概念数据库是一个以某种方式有组织的形式存储的数据集合数据库(database) 保存有组织的数据的容器。(一个文件或者一组文件)数据库表特性: 定义数据如何存储,存储什么数据,数据如何分解。模式(scheme): 关于数据库和表布局以及特性的信息列(column): 表中一个字段行(row): 表中的一个记录主键(primary key) : 一列(或者一组列 ,其值能够唯一区分表...

2020-04-17 22:30:47 136

原创 selenium实现淘宝爬虫

准备工作安装好selenium和浏览器驱动chromedriver。淘宝爬虫过程分析加代码1.页面请求分析首先请求淘宝页面,然后输入要爬取的数据的关键词,没有登陆,此时会弹出登陆的窗口,采取模拟浏览器登陆形式进行登陆,之后获取页面的文本信息。安装好浏览器驱动chromedriver,可以先配置其地址信息,实现代码如下:chrome_driver = r"F:\python\python...

2020-04-17 14:15:58 1054 1

原创 淘宝爬虫1

这里写自定义目录标题淘宝爬虫技术分析淘宝页面分析模拟鼠标的滑动,处理部分图片不显示问题,采用JS的鼠标滑动的功能来实现,实现代码如下:数据的解析,优化,可以选择数据的存储方式。总结淘宝爬虫爬取淘宝上的数据:销量啊、价格啊、以及好评等等。这里以selenuim为例,来介绍一下淘宝商品的爬取过程。在此之前,需要确保selenuim和浏览器驱动chromedriver已经安装好。技术分析爬取...

2020-03-25 15:54:38 1234 3

原创 正则表达匹配-(字符匹配表)

一。关键在于将信息写成一个正则表达式。我们先看正则表达式的常用语法:1)单个字符:.           匹配除换行之外的任意的一个字符a|b        字符a或字符b[afg]      a或者f或者g的一个字符        [0-4]      0-4范围内的一个字符[a-f]      a-f范围内的一个字符[^m]      

2017-09-29 19:30:36 730

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除