1 嘿!MAN

尚未进行身份认证

暂无相关简介

等级
TA的排名 41w+

爬取网站页面与浏览器显示不一致

爬虫xpath无法定位信息爬取网站页面与浏览器显示不一致

2020-05-31 18:51:13

爬虫下载文件名含有大量16进制编码,文件名可读性较差

爬虫下载文件名含有大量16进制编码,文件名可读性较差

2020-05-31 18:17:41

爬取网站提示不是私密链接且访问存在被攻击风险

爬取网站提示不是私密链接且访问存在被攻击风险urlopen()报出如下错误:hostname 'www.xxx.xx' doesn't match either of 'xxx.xxx.com'类似错误。

2020-05-31 17:47:49

Ubuntu安装codeblocks碰到更新源列表失败

查阅得知安装codeblocks执行如下命令sudo add-apt-repository ppa:pasgui/ppasudo apt-get updatesudo apt-get install codeblockssudo apt-get update时出现如下报错:N: See apt-secure(8) manpage for repository creation and user configuration details.尝试 cd /var/lib/dpkg;sudo mv i

2020-05-31 14:57:04

linux 文件名含有空格如何批量操作

使用find命令查找文件名中包含空格的文件。[root@DB-Server kerry]# find . -type f -name “* *” -print./test.txt./tes t.txt 那么如何将这些空格替换掉呢? 下面脚本可以替换文件中间的空格,用下划线替换空格,但是只能替换文件中间的空格,并不能替换文件名后面的空格。如下测试所示:find . -type f -nam...

2020-04-28 09:50:16

mongodb命令行查询结果导出

先在交互界面尝试查询结果是否无误,创建js脚本,键入如下代码如下:db.xxx.distinct('url',{productClass:'xx'}).forEach(function(element){print(element.info.sId + "," + element.submitTime + "," + element.responseTime); })回到bash...

2020-04-17 16:50:09

用python将txt文件拆分成多个小文件

txt文件本身为由逗号区分开的连续字符串,字符串均为链接,因此一般特征也比较明显,文件如下:首先想到方法是用with open read函数获取文件信息,通过’,‘来拆分各个url,按照url域名来得到小文件名,从而完成文件拆分,但此时得到的小文件可读性很差,经过查询得知,可将此时各url较共同的后缀替换为原字符+’<br>’,并另存为htm文件,浏览器打开另存文件,即可得到每个u...

2020-04-17 16:27:44

scrapy爬虫解析起始页网页链接后request请求不能正常跳转到下一级爬虫类的解析方法中

爬虫启动后,bash显示如下信息: 2020-04-07 18:38:17 [scrapy.core.engine] INFO: Spider opened 2020-04-07 18:38:17 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 it...

2020-04-17 15:55:20

scrapy爬虫始终定位不到元素

scrapy爬虫始终定位不到元素欲抓取网页链接谷歌浏览器审查时界面复制的xpath路径为//*[@id=“history”]/tr[1]/td[1],使用浏览器控制台验证无误但使用get和xpath得到值为空列表查看网页源代码对应路径下确实无此元素疑为异步加载网页,查看network搜索并未找到欲抓取元素,难受。不断调试试验,最终在firefox复制xpath绝对路径,并使用...

2020-03-26 11:59:37

linux下vscode调试scrapy爬虫脚本

此时已安装vscode,scrapy框架搭建好且已用命令行方式编写了脚本并完成了抓取,但调试仍不能有效进行。此时需用vscode打开工程文件,在文件菜单将此时含有scrapy.cfg的文件夹添加为工作区,打开爬虫脚本,执行调试。在上方运行和调试下拉菜单添加配置,此时在打开的launch.json文件中添加配置如下:“configurations”: [{“name”:“Scrapy”,...

2020-03-25 12:05:16

python2.7与python3版本不同,造成urllib库需修改引用的方式

报出类似这种module 'urllib' has no attribute 'urlopen'ulropen,urllib2,urllib2.Request由于版本更新整合在url.request模块中,因此将脚本中对urllib2,urlopen,urllib2.Request的调用分别改为urllib.request,urllib.request.urlopen,urllib.reque...

2020-03-25 11:43:56

TypeError: a bytes-like object is required, not 'str',需要字节串不是字符串

爬虫报出File “/home/xxx/testdemo/testdemo/xxx/lxxx.py”, line 40, in parse_pagemodelt = info.split(r"路由器型号:")[-1]TypeError: a bytes-like object is required, not ‘str’2020-02-18 17:15:39 [scrapy.core.scr...

2020-03-25 11:31:23

ubuntu修改默认python之后,安装scrapy相关依赖报E: Sub-process /usr/bin/dpkg returned an error code (1)

ubuntu修改默认python之后,安装scrapy相关依赖报E: Sub-process /usr/bin/dpkg returned an error code (1)Ubuntu将默认python改为3.5后安装libssl等依赖库时一直失败且报出某些后缀为py文件Python函数库导入时无此函数,修改至符合Python3后的函数名仍不正常安装,执行apt-get update 后执行a...

2020-03-22 13:02:55

mongodb2.6的简单命令行使用:

mongodb2.6的简单命令行使用:查看数据库列表有哪些数据库 : show databases或者show dbs查看用户列表有哪些用户: show users进入某一个数据库 : use 数据库名进入某一个用户 : use 用户名查看数据库内集合 : show collections查看集合统计信息(包括索引,数...

2020-02-14 17:11:51

Python2.7搭建的scrapy框架改用Python3.5运行scrapy

Python2.7搭建的scrapy框架改用Python3.5新建工程运行旧爬虫1.爬虫脚本中urlparse模块已经在Python3中合并为urllib,此时改为import urllib,函数调用此前的urlparse.urljoin改为urllib.parse.urljoin此时对于网页URL地址的操作就恢复预期了脚本中调用的set函数也不需导入了,在Python3中,集合函数已归为Py...

2020-02-13 10:42:07

windows下安装Python3.8后发现缺失pip、setuptool工具

windows下安装python requests和BeautifulSoup库时发现Python库安装工具pip未安装在https://pypi.python.org/pypi/pip上下载Python3版本对应的pip版本(后缀为.gz或者zip),在解压后的目录cmd下运行Python setup.py,报ImportError: No module named setuptools ,...

2020-02-03 22:59:14

Python学习笔记 简单记录

Python学习笔记1.从微信上复制过来的python代码后缀名改为.py时仍不能正常运行,经此文件另存编码方式改为UTF-8后再次运行正常。2.格式化输出一段话时,先定义这段话的格式如‘%s会成功,挣$%’紧跟着给出不同情况下的插入的话如%(xq,100000000000)此时,整个格式化的陈述完成,可以打印输出3.linux 下安装pip可以更方便的管理python,linu...

2020-01-26 17:22:20
勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。