自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wddzz

以Python为主的技术博客,欢迎大家多多交流

  • 博客(34)
  • 收藏
  • 关注

原创 关于git Permission denied (publickey). fatal: Could not read from remote repository. 的处理

首先查看本地的.git/config设置的仓库url地址和github使用的链接地址是否一致,如use https,则url需要用https的仓库地址 cat .git/config查看配置中的URL是否和仓库地址相同1、检查电脑中是否有id_rsa和id_rsa.pub文件(一般在/c/Users/用户名/.ssh 或者 ~/.ssh目录下),有则备份删除2、以下步骤为重...

2019-03-22 15:25:31 906

原创 python selenium Firefox WebDriverException: Message: permission denied

在使用selenium和Firefox中,报错:WebDriverException: Message: permission denied分析原因是:Firefox版本的问题经处理如下版本方式可以解决:       Python 3.6.0       selenium 3.141.0       Firefox 62.0       geckodriver-v0.23.0...

2018-12-13 19:23:32 5496

转载 python命令行参数解析

一、getopt模块 getopt.getopt(args, options[, long_options])args为需要解析的命令行参数列表,一般为sys.argv[1:],这是因为argv[0]为脚本的路径。options为希望识别的参数,如果该命令行参数需要指定一个参数值,例如-a param_a,那么它必须跟一个冒号":",即"a:",再加上不需要指定参数值的c即为:"a:c...

2018-11-07 11:35:16 307

原创 python List 相关操作

1、创建空列表      a = [ [ ]  for i in range(5)]      b = [ [ ] ] * 5      a中的五个空列表,分别指向不同的对象;      b中的五个空列表,指向同一个对象;                            2、列表的复制     a = [1,2,3,4,5]     b = a     a...

2018-10-22 18:16:02 171

原创 python selenium代理解决方案

profile = webdriver.FirefoxProfile()profile.set_preference("network.proxy.type", 1)#profile.set_preference("network.proxy.share_proxy_settings", True)#profile.set_preference("network.http.use-cach...

2018-09-25 14:59:03 1101

原创 Linux下python包安装报错

PermissionError: [Errno 13] Permission denied: '/usr/local/python3/lib/python3.5/site-packages/beautifulsoup4-4.6.3.dist-info'在Linux下安装bs4时报以上错误,所有命令为pip install bs4报错原因为权限不够,改用一下命令成功安装:        ...

2018-09-14 10:51:58 536

原创 python中True和False与字符串True和False

python中字符串"True"、"False"无发转化为bool类型,字符串的bool值都为True。在配置文件config.ini中如果定义一个变量为bool值,则无效,得到的是字符串,如下:       在config.ini文件中:                                       [Controler]                      ...

2018-08-25 11:34:14 13698

原创 python中的类

类的__init__方法,只会的类的初始化,创建对象的时候调用要想创建一个对象多次使用,可以把初始化__init__中的属性,放在累的别的方法中

2018-08-24 02:16:54 81

原创 python中的while循环

i = 0while i < 5: print("i=",i) i += 1 for i in range(0,5): print("b")一不小心,就陷入了死循环

2018-08-17 15:48:15 205

原创 requests中headers设置的小坑

headers = { "Host": "www.tmkoo.com", "Connection": "keep-alive", "Content-Length": "50", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp

2018-08-17 15:42:40 7065

原创 python mongodb update

1、更新多条数据 update_many(self, filter, update, upsert=False,bypass_document_validation=False, collation=None)       upsert=False,表示在筛选不到数据时 ,不插入       upsert=True,在筛选不到数据时,插入,但是只会插入筛选的字段       例如...

2018-08-14 16:50:00 2340

原创 python时间格式处理时 遇到的一些问题

1、把字符串时间格式转化为时间戳      validPeriod = "2017/10/07 - 2027/10/06"      privateDate = validPeriod.split("-")      tart = privateDate[0].strip() #split之后一定要strip,去除空格,不然会报错"ValueError: unconverted data...

2018-08-14 11:05:07 2013

原创 Ubuntu用户创建与删除

1、进入root权限       sudo su2、 sudo adduser 用户名      输入两次密码     两次输入linuxidc的初始密码,出现的信息如下     passwd: password updated successfully     Changing the user information for linuxidc    Enter the n...

2018-07-23 23:10:32 758

原创 python中的json数据处理

1、从redis中提取的数据为byte,在使用json.loads()时,需要先转化为字符串,另外单引号要转变为双引号         data.decode('utf-8').replace("'", "\"")2、报错类型如下:json.decoder.JSONDecodeError: Invalid \escape原因是数据中有如图所示的字符,需转化 re...

2018-07-17 18:46:40 489

原创 从redis读取数据报错的处理

如下报错,提示: ValueError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1) 解决:data.decode('utf-8').replace("'", "\"")

2018-07-16 18:06:58 1944

原创 pip install scrapy时报错的处理

在pip install scrapy时报错,如下需要我们自己下载Twisted,然后安装。这里有Python的各种依赖包。选择适合自己Python以及系统的Twisted版本。 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 这里一定要注意下载与自己电脑匹配的版面,版本不匹配在安装时会报如下错误:    is not wheel in thi...

2018-06-20 15:40:43 489

转载 python中的协程

协程协程:是单线程下的并发,又称微线程,纤程。英文名Coroutine。一句话说明什么是线程:协程是一种用户态的轻量级线程,即协程是由用户程序自己控制调度的。协程能保留上一次调用时的状态(即所有局部状态的一个特定组合),每次过程重入时,就相当于进入上一次调用的状态,换种说法:进入上一次离开时所处逻辑流的位置。注意:  1. python的线程属于内核级别的,即由操作系统控制调度(如单线程一旦遇到i...

2018-06-18 18:54:02 198

原创 python中的多进程、进程池和进程间通信

多进程        multiprocessing.Process        创建进程的类:Process([group [, target [, name [, args [, kwargs]]]]]),target表示调用对象,args表示调用对象的位置参数元组。kwargs表示调用对象的字典。name为别名。group实质上不使用。方法:is_alive()、join([timeout...

2018-06-18 18:46:02 391

转载 Chrome设置禁止自动更新

Chrome历史版本下载地址:https://www.chromedownloads.net/chromewebdriver下载地址:http://chromedriver.storage.googleapis.com/index.html附chromedriver与chrome的对应关系表:chromedriver版本支持的Chrome版本v2.33v60-62v2.32v59-61v2.31v...

2018-05-26 01:21:39 17289

原创 windows下MongoDB安转配置及启动

MongoDB安转配置:注意事项1.如果命令执行出了异常,看看是否命令中间换行了。win7的cmd,换行就执行了。。2.启动以后有任何异常,你应该立即去看logs下自动生成的文件3.启动不了,删除logs下的所有文件试试4.已经安装过MongDB的,提示MongDB服务已存在,用sc delete MongoDB删除即可。5.如果下载的是.msi文件,安装后不知道在哪,要查看我的这个博文点击打开链...

2018-05-24 00:38:24 332

转载 XHR

        ajax是asynchronous javascript and XML的简写,中文翻译是异步的javascript和XML,这一技术能够向服务器请求额外的数据而无须卸载页面,虽然名字中包含XML,但ajax通信与数据格式无关.        ajax包括以下几步骤:1、创建AJAX对象;2、发出HTTP请求;3、接收服务器传回的数据;4、更新网页数据        概括起来就是,...

2018-05-17 22:30:30 2805

原创 Windows下MongoDB安装及环境配置

1、下载MongoDB安装包:            官网地址:https://www.mongodb.com/download-center?jmp=nav#community            一路点击next安装,可以自定义安装路径,例如安装在H:\mongo2、安装完成后,打开安装路径,在bin的同级文件夹建立一个data文件夹,进入data文件夹,①建立一个db文件夹(路径为H:\m...

2018-04-30 12:14:33 124

转载 Item Loader使用详解

            Items 提供保存抓取数据的 容器 , 而 Item Loaders提供的是 填充 容器的机制            ItemLoader 类位于 scrapy.loader ,它可以接收一个 Item 实例来指定要加载的 Item, 然后指定 response 或者 selector         来确定要解析的内容,最后提供了 add_css()、 add_xpat...

2018-04-24 17:59:04 2974

原创 CrawlSpider和XMLFeedSpider

一、CrawlSpider    CrawlSpider除了从Spider继承过来的属性外,还提供了新的rules属性,提供跟进链接功能,    rules属性是一个包含一个或多个Rule对象的集合,    每个Rule对爬取网站的动作定义了特定的规则,    对于多个Rule匹配相同的链接,根据它们在rules属性中被定义的顺序,第一个被使用。    可以复写parse_start_url(re...

2018-04-24 12:57:59 269

转载 scrapy第一次请求方式的重写

当起始请求需要设置header,cookie,data时,则要对起始请求做处理,所以需要重写第一次请求处理函数start_request(self)1 设置header与cookie    如果在settings.py文件中设置请求头,则所有的蜘蛛文件都使用该请求头,然而不同的蜘蛛文件需要不同的请求头,因此需要给每个蜘蛛文件的请求设置独立的请求头.    设置独立的header和cookie方法为...

2018-04-24 10:45:24 4576

原创 selenium用法回顾

一、Selenium+PhantomJs最新版本的Selenium已不再支持PhantomJs,详情参考官网from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesdef getSource(url): # 设置请求头...

2018-04-22 22:34:05 280

原创 Python爬虫:Fiddler的使用和浏览器伪装技术

   Fiddler是一款常见的抓包分析软件,利用Fiddler可以详细地对HTTP请求进行分析,并模拟HTTP请求。    在爬虫中利用Fiddler,可以帮助我们更快地分析出一些动态网页加载的请求实现方式;    在有了Fiddler,经过设置之后,本地应用和服务器之间的Request和Response都将经过Fiddler转发,Fiddler以代理服务器的方式存在。官网下载地址:https:...

2018-04-21 16:12:22 1954 1

原创 Python爬虫:Cookie的使用

1、HTTP协议是一个无状态协议,通过Cookie保存会话信息,从而判断目前的会话状态,比如可以判断是否已经登录。当我们用urlopen来请求一个URL时,都是使用的默认opener;当需要用到Cookie时,要创建一个更一般的opener;2、cookielib模块主要是提供可存储的Cookie对象,以便于与urllib2模块配合使用来访问Internet资源该模块主要的对象有CookieJar...

2018-04-20 23:58:41 201

转载 Lxml库及Xpath语法详解

一、Xpath术语1、节点:七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点2、节点关系:父、子、同胞、先辈、后代3、节点选取表达式描述nodename选取此节点的所有子节点/从根节点选取//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点..选取当前节点的父节点@选取属性实例在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:路径表达式...

2018-04-20 18:43:13 9242

转载 爬虫VS反爬虫

爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通常都...

2018-04-20 17:19:35 447 1

原创 Python网络爬虫:User Agent和代理IP

一、在urllib2中的使用:# 一:# 异常处理,及设置请求次数# 可添加time时间间隔import urllib2def download(url,num_retries=2): print("Downloading:",url) try: html = urllib2.urlopen(url).read() except urllib2.URLError as e: ...

2018-04-20 16:07:08 243

转载 selenium用法详解

selenium用法详解selenium主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。模拟浏览器进行网页加载,当requests,urllib无法正常获取网页内容的时候一、声明浏览器对象注意点一,Python文件名或者包名不要命名为selenium,会导致无法导入from selenium import webdriver#webdriver可以认为是浏览...

2018-04-19 20:57:46 1084

原创 如何把本地项目上传到Github

参考链接:https://www.cnblogs.com/shenchanghui/p/7184101.html因为GitHub是基于git实现的代码托管,所以git是少不了的。我们要确认电脑上安装了git,没有安装的,就去安装git。至于安装方法,就自行百度吧。新建Test文件夹,里面添加几个文件。右击Test文件夹根目录,点击“Git Bash Here”,打开git命令行。按照github新...

2018-04-19 17:16:33 129

原创 image属性的input提交按钮

html中input属性type=image的提交按钮,再点击后自动刷新页面:解决方法:<input type="image" name="tjiao" src="images/denglu_btn.png"  onclick="return false">

2018-03-19 16:58:02 1450

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除