自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (2)
  • 收藏
  • 关注

原创 scrapy-redis分布式爬虫案例(房天下)

运行效果动图:简述:本案例中有一台Linux系统运行Redis服务器,两台Windows系统跑分布式爬虫。爬虫从Redis队列中得到要爬取的URL,同时redis负责队列中URL的去重以及爬虫因某些原因暂停或者终止时,下次开启爬虫自动继续上次未完成的URL继续爬取,不会重头开始爬,当爬虫爬空Redis中的URL时,就会处于等待状态,次数可以设置等待一段时间,如果队列中还是没有新增要爬取的U...

2019-09-29 10:19:33 649

原创 12306抢票爬虫selenium+Chromedriver(升级版)

先看代码执行结果:此爬虫是对之前版本爬虫(网络上大部分博客的版本)的修改和调整,具体具体流程如下:运行程序时,输入出发地,目的地和出发城市。 若是学生,则选择学生票,学生身份需要通过12306网站验证。 登录完成之后,自动跳转到查询车次页面,这样做是想先让购票者比较各个车次信息之后,输入想要购买的车次和座次。 根据查询信息,输入想要购买的车次以及座次信息。 程序会自动根据输入的...

2019-08-28 18:03:41 887 14

原创 12306抢票爬虫selenium+Chromedriver(需手动完成支付)

先看动态结果:只能到预定锁定车票,30分钟内手动付款,车票会被自动取消。 如果是暂无余票,就会一直查询余票信息,直到有余票时,自动预定,比如G7暂无余票,为了防止反爬虫,设置的刷票间隔时间长一点,这样更安全。 使用selenium+chromedriver工具,自动查询余票,和订票,如果暂时无票,程序会一直不停的查询余票情况。 首先需要输入出发城市,到达城市,和乘车日...

2019-08-16 18:09:40 1464 2

原创 weblogic server集群安装超级详细图文并茂(图形界面模式)

PS:以下内容由笔者在学习和工作中的记录和总结,如有错误欢迎指正,技术交流企鹅号:260228941。关于weblogic server集群概念和关系,参考:https://blog.csdn.net/u013413740/article/details/97238635部署环境如下: 主机名 系统类型 配置 端口 角色 Machine_128 ...

2019-07-22 18:19:12 1319

原创 git提交代码步骤

1、git status 查看哪些改动文件。2、git add 添加改动文件, 之后git status 可以看到改动文件已变绿3、git commit 改动的文件4、设置commit信息 第一行 全大小 项目名称、日期及版本等 空格 第二行改动内容备注5、git log 查看版本信息,在上个版本基础上打包6、在最近一个版本上打patch :sudo git format-patch8e332c146caf90b01ec6496ad7f1e35a16b0873d...

2020-09-25 11:10:25 1951 1

原创 Django项目中执行migrate迁移脚本时报错及解决方法

一、python manage.py startapp appname 创建一个app二、python manage.py make migration 将模型生成迁移脚本 1.模型所在的app,必须在settings的INSTALLED_APPS下,否则报错。 2.python manage.py make migration appname 只将某个app模型...

2019-10-17 17:05:34 2116 2

原创 python(Django)项目中如何安装虚拟环境(virtualenvwrapper)

安装virtualenvwrapper(Windows系统) windows: pip install virtualenvwrapper-win 创建虚拟环境:mkvirtualenv django_env 创建完成后自动进入到该虚拟环境中,默认路径是在C盘当前用户下的Envs内。 进入 /退出某个虚拟环境:workon django_env /deactivate 查看所有虚...

2019-10-10 11:41:02 278

原创 如何将scrapy项目转换成scrapy-redis分布式爬虫

将爬虫继承的类从 scrapy.Spider 变成 scrapy_redis.spiders.RedisSpider(或者先import (from scrapy_redis.spiders import RedisSpider));或者是从 scrapy.CrawlSpider 变成 scrapy_redis.spiders.RedisCrawlSpider。 将爬虫中的start_url...

2019-09-23 10:29:30 495 1

原创 Ubuntu安装Scrapy

首先需要安装依赖包如下:sudo apt-get install python3-dev build-essential python3-piplibxml2-devlibxslt1-devzlib1g-dev libffi-dev libssl-dev 安装scrapy pip install scrapy...

2019-09-20 14:32:58 860

原创 Pycharm中为python程序添加依赖包

导出该python程序所依赖的第三方包的列表:pip freeze > requirements.txt 将requirements.txt拷贝到需要运行该python程序的机器上,执行pip install -r requirements.txt 即可安装程序所依赖的包。...

2019-09-20 11:11:22 1156

原创 Python爬虫常见报错及解决办法

报错:AttributeError: 'NoneType' object has no attribute 'strip'检查是否是单词拼写错误。 检查是否是str类型 检查返回结果是否有空值,使用strip()前可以先判断是否为空,如下: name = li.xpath(".//div[@class='nlcd_name']/a/text()").get()if name is n...

2019-09-17 17:13:43 3196 4

原创 redis相关操作

字符串操作设置和获取字符串 set username name / get username 设置和查看过期时间 set age 20 EX 60(expire age 60单独设置过期时间) / ttl age 一旦过期,会被自动删除。 查看所有的keys: keys *列表操作 (有序,重复)给列表添加值: 左添加: lpush websites bai...

2019-09-12 14:58:46 83

原创 redis安装

下载地址:https://github.com/microsoftarchive/redis/releases 安装完成后,切换到安装目录: 执行redis-server.exe redis.windows.conf 启动server端。如果报错:Creating Server TCP listening socket 127.0.0.1:6379: bind: No error。则分...

2019-09-11 17:56:17 103

原创 python 遍历select下拉框,获取option标签中value和text的值

在写12306爬虫时,遇到选择座席信息时,需要遍历select下拉框获取其中的座席信息。 代码如下: seat_types = self.driver.find_element_by_xpath('.//select[starts-with(@id,"seatType")]') seat_ptions_list = seat_types....

2019-08-28 09:10:30 4602

原创 pycharm下设置项目默认信息模板

在Pycharm中 File——settings(Ctrl + Alt + S) 快速搜索:File and Code Templates ——Python Script,在右侧根据自己需要输入内容。 最后Apply——OK即可。结果如下图: ...

2019-08-23 11:13:20 625

原创 如何使用pycharm将.py文件转换成.exe文件

安装pyinstaller(首次使用)。打开终端(Alt+F12),输入:pip install pyinstaller。步骤如下图。 安装完成后继续中输入:“pyinstaller -F -w 文件名.py” 就可以制作出exe,生成的可执行文件位于和源文件同目录的dist文件中。 ...

2019-08-23 11:00:45 2880

原创 re正则表达式常用匹配规则

整理常用的re函数和匹配规则,便于查找。re模块中常用函数:match:从字符串开始位置进行匹配; search:在字符串中查找匹配; findall:找出所有符合条件的,是一个列表; sub:用来替换字符串; split:分割字符串; compile:编译表达式; group:匹配结果分组。常用的匹配符:.匹配除换行的任意字符; \d匹配任意的数字[ 0-9 ]; ...

2019-08-13 15:40:21 5919

原创 爬虫爬取BOSS直聘(selenium+Chromedriver)

今天介绍借助selenium+chromdriver工具进行爬取招聘信息,并保持到csv文件中,以招聘python岗位为关键字。爬取思路可分为以下几个步骤:爬取第一页页面中所有职位的链接:每个职位有个id。 然后根据获取的每个职位的链接,获取该职位的详细信息。 右键——检查,根据html,选取元素。见代码。 第一页职位信息爬取完成后,让浏览器跳转到第二页,继续爬取每一...

2019-08-12 11:35:30 2898

原创 爬虫爬取拉勾招聘信息(selenium+Chromedriver)

之前使用requests库爬取拉勾网站招聘信息时,老是出现访问频繁或者因检测到存在爬虫行为被禁止访问。从开始学习爬虫到工作,爬取过一些网站。拉勾算是反爬虫措施做的最变态的,没有之一。为了获取获取更加完整的数据信息,今天介绍使用selenium+chromdriver,借助工具进行爬取,以招聘python岗位为关键字。爬取思路可分为以下几个步骤:爬取第一页页面中所有职位的链接:每个职位有...

2019-08-06 18:23:45 556

原创 爬虫之动态网页爬取Selenium+Chromedriver

安装Selenium。 pip install selenium 下载Chromedriver(根据浏览器版本下载,相应版本https://sites.google.com/a/chromium.org/chromedriver/downloads),不需要双击安装。 测试是否安装成功(路径是chromedriver的路径,最好不含有中文名称) 能自动打开百度网页说明安装没有问题。...

2019-08-01 17:03:40 726

原创 Linux之vi/vim命令常用操作

显示行号(:set nu显示,:set nonu 取消显示) 定位到某一行(:行号) 复制整行 (yy复制,p粘贴) 服务多行(按下v,移动光标选取要复制的内容,按y复制,移到光标到要粘贴的地方,p粘贴)。 u撤销上次操作。 待更新……...

2019-08-01 10:51:27 121

原创 weblogic server集群之配置节点管理器(Node Manager)

为什么要配置节点管理器呢?节点管理的作用是让我们可以远程的管理集群中的服务器(开启,关闭以及重启服务器)。举个简单的例子,如上图,有一个管理服务器和三个受管理服务器,如果您的应用程序及资源被部署在了不同主机的服务器上,当您要升级的应用包部署到管理服务器后,需要重启每个受管理服务器来获取管理上的新的配置文件,您会怎么做呢?最普通的方法,就是分别登录到相对应的服务器上,执行启动脚本,就行了...

2019-07-26 18:06:24 4169

翻译 weblogic server集群理论知识总结

更多相关内容,请参考官方文档:https://docs.oracle.com/cd/E12840_01/wls/docs103/index.htmlweblogic server集群中几个要了解的概念:集群拓扑结构如下:(笔者所理解的) Domain(域) Administration Server(主管理服务器AS) Managed Servers(受管理服...

2019-07-25 09:55:59 551

原创 weblogic server集群无界面安装(命令行模式)

PS:以下内容由笔者在学习和工作中的记录和总结,如有错误欢迎指正,技术交流企鹅号:260228941。关于weblogic server集群概念和关系,参考:https://blog.csdn.net/u013413740/article/details/97238635部署环境如下: 主机名 系统类型 配置 端口 角色 Machine_128 L...

2019-07-23 11:16:08 759

原创 Linux配置Java环境

https://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html 到官网下载相应版本的JDK。新建jdk文件夹(mkdir jdk),并把下载的JDK放到该目录并解压(tar -xvzf ),解压后生成了个新文件夹。解压后进入到文件目录,pwd复制文件夹路径,后面编辑profile时JAVA_HOM...

2019-07-22 15:30:33 356

原创 weblogic server集群中常见报错解决办法(亲试有效)

1.集群中服务器启动时报错信息如下:<An error occurred while sending multicast message: java.net.SocketException: sendto failed: Invalid argumentjava.net.SocketException: sendto failed: Invalid argumentat java.ne...

2019-07-19 15:44:29 7954

lagouSpider.py

python,通过使用selenium Chromedriver工具爬取拉勾直聘网。

2019-08-13

bossSpider.py

python,通过使用selenium Chromedriver工具,爬取BOSS直聘网,python招聘信息

2019-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除