5 会编程的漂亮小姐姐

尚未进行身份认证

所有的高薪,背后都是玩命的付出和不懈的坚持,这也是为什么会有这样的现象:越厉害的人,反而越努力。切记,别用今天的安逸换来一辈子的艰难,这是天底下最赔本的买卖。

等级
博文 184
排名 2w+

后端返回URL某一部分的值

1.http://www.cnlinfo.net/从这里输入公司名字,获取企业黄页信息2.输入关键字后,后端会返回拼凑的URL后半部分,根据JS代码,我们可以通过以下办法获取到完整的urlimportrequestsurl=“http://www.cnlinfo.net/ashx/BianMa.ashx”data={“TypeNum”:“3”,“ZhongWen”:“北京...

2019-05-22 16:47:42

页面解析

1.content=response.content.decode(‘gb2312’,‘ignore’)html=etree.HTML(content)2.html=etree.HTML(response.text)

2019-05-22 14:19:47

检查代理是否可用

importrequestss=requests.session()url=“https://mail.163.com/”s.keep_alive=Falses.proxies={“https”:“47.100.104.247:8080”,“http”:“36.248.10.47:8080”,}s.headers=headerr=s.get(url)print(...

2019-05-18 09:41:59

join的使用总结

try: #addr是一个列表['山东省','青岛市','奎文区']addr=html.xpath('//dl[@class="codl"]/dd[1]/a//text()')#拿到地址所属省、市、区address='\u0002'.join(addr)#直接拼接list中内容山东省\x02潍坊\x02奎文区except:mailing_add...

2019-05-16 10:04:58

strip()函数总结

1.描述Pythonstrip()方法用于移除字符串头尾指定的字符(默认为空格或者换行符)或字符序列。注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。2.语法strip()方法的语法:str.strip([chars])3.参数chars–移除字符串头尾指定的字符序列。4.返回值返回移除字符串头尾指定的字符生成的新的字符串。5.实例str=“0000000...

2019-05-15 23:29:55

不显示验证https的安全证书

urllib3.disable_warnings()#不显示验证https的安全证书

2019-05-08 11:34:40

遇到的一些编码问题

fromurllib.requestimportunquoteurl=‘https://cn.mdina.com/companysearch.do?source=1&word=��Ҧ�пƿ���ҵ���޹�˾’newurl=unquote(url,encoding=‘gb2312’)print(newurl)...

2019-05-06 15:15:57

chorme调试Paused in debugger问题解决

2019-04-29 09:52:50

当无法使用xftp传输文件到linux时的解决办法

yum -y install lrzsz安装好了输入rz

2019-04-18 15:41:51

Project(1)阶段性总结续文

爬取的项目大概有200多万数据,基本都是做数据补全。目前已经接近尾声,还是遇到不少问题,感觉还是要总结一下才对得起花费的时间。爬虫过程,最好将整个页面也拿下来。这次爬虫吃了大亏。同一数据爬取了3次,因为每次拿到的数据和网页不一致。后来采取了保存整个网页,这样,在数据验收的时候,当发现爬取下来的数据和网站上的数据不一致的时候,只需要检查拿去下来的整个页面就可以了。这样即使爬取的数据和当前网页...

2019-03-22 11:45:18

继403后又发现一个坑

发现爬取的数据正确,但是时间不对。最后想到的解决办法是重新爬,可以重新爬取有80多万的量,这样下去又要花很久的时间。突然发现爬虫中保存HTML页面的必要性。虽然爬取的时候感觉这样很麻烦,可是如果大量数据已经爬取完成,再发现小问题都无从考证,到底是爬取方案有问题,还是页面数据更新了?没有原始网页,这些都无从考证!切记:以后爬虫尽量保存原始页面,这样出问题了,可以分析自己的原因。而且也不用重新爬取,...

2019-03-20 16:31:59

使用linux命令每隔一段时间启动一次爬虫

while[1];dopython3test.py&sleep600;pkill-9test.py;done

2019-03-19 17:44:38

启动Appium报错解决办法

在命令行中输入“adbshell”进入shell之后,再输入“cat/system/build.prop”获取到deviceName

2019-03-12 11:49:02

[WinError 5] 拒绝访问。: 'd:\\anaconda\\lib\\site-packages\\cryptography\\hazmat\\bindings\\_constant_ti

通过pipinstallmitmproxy安装mitmproxy报错:[WinError5]拒绝访问。:'d:\anaconda\lib\site-packages\cryptography\hazmat\bindings\_constant_ti。。。。。。解决方法是:pipinstall--usermitmproxy...

2019-03-11 16:46:02

fiddler突然抓不了包的解决办法

今天fiddler突然抓不了包的解决办法,百度了很多办法都没解决,最后发现是因为我浏览器使用了直接代理,当选择为系统代理后,fiddle就可以正常抓包了。...

2019-03-08 17:04:00

Project(1)阶段性总结

从2月底出去过年的时间,一直在忙着一个补全数据的项目,从开始的对项目反感抵触(主要是觉得简单),但真正的经历过后,一路上受益匪浅,还是学到了很多的东西。从该项目中主要学到以下:1.不管做什么之前,先捋顺思路,第一步做什么,下一步做什么很关键。比如针对该项目,我觉得我应该这样去完成将所有的数据按照一个标准去重,并给其一个规范的命名,最好这些命名有迹可循,不至于时间长了后,自己都不知道是什么...

2019-03-08 16:10:47

继403,503后遇到的问题

1.随着代码的运行,网站会返回403,503给我,然后我切换IP重新获取,可以获取到数据。2.但是遇到一个问题,就是代码跑着跑着,一直在报403,一直在切换IP重新获取数据。3.可是我发现一个现象,就是我此时重新运行爬虫代码,又可以获取大量的数据,不会报403.随着代码的运行,又开始报403,卡死。。。。。。。最终解决办法:既然程序每次重启就可以拿到数据,那么我就采用这样的办法不就解决了?...

2019-03-04 10:38:26

使用python语言驱动火狐浏览器配置步骤

1.下载火狐浏览器2.下载电脑对应版本的火狐驱动程序geckodriver.exe3.安装获取浏览器后将geckodriver.exe放在其目录下,并将该火狐浏览器路径添加到环境变量PATH中4.pycharm选择对应的解释器,并把geckodriver.exe放在和python.exe同级路径下,并将geckodriver.exe所在的路径添加到环境变量PATH中5.设置程序中execu...

2019-02-27 17:24:52

502、503问题

403是解决了,现在遇到服务器直接屏蔽所有用户的请求!!!

2019-02-26 17:17:28

一些基础编程题的更优解

练习1:输入三个整数x,y,z,请把这三个数由小到大输出。#程序分析:我们想办法把最小的数放到x上,先将x与y进行比较,如果x>y则将x与y的值进行交换,然后再用x与z进行比较,如果x>z则将x与z的值进行交换,这样能使x最小。list1=[]foriinrange(3):list1.append(input('请输入整数:\n'))list1.sort(...

2019-02-22 15:37:55
奖章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周上午根据用户上周的博文发布情况由系统自动颁发。