9 阿智智

郑州航空工业管理学院 - 研究人员

我要认证

思考,思考,再思考!

等级
TA的排名 4k+

利用Selenium配合Chromedriver爬取一个带输入框、选择框和提交按钮的基于AJAX的网页

目录1 介绍2 爬虫代码及其详细解释3 代码运行结果4 总结1 介绍阅读书籍《Python Web Scraping: fetching data from web》1第二版的113页例子时,心情激动,被Selenium的功能所吸引,遂写此博文加以总结。该书上例子直接运行会出错,因为其针对的网页网址已变动。本博文给出的例子已进行相关的修正,那么本博文相比较该书的例子有哪些特色呢?包含以下几点:修正了要爬取的网页的网址。这是正确爬虫的关键。使用的第三方浏览器Chromedriver,因为在Windo

2020-08-24 18:54:13

Python中子文件夹中的.py文件引用父文件夹中的.py文件方法

文件夹结构描述文件夹结构是这样的:pythonWS2edCode│└───Chapter01│ │ advanced_link_crawler.py│ └───Chapter02 │ test_scrapers.py现在文件test_scrapers.py中需要:from Chapter01.advanced_link_crawler import download也就是说,要导入父文件夹下的某个module。此时,我们在路径pythonWS2edCode运行

2020-08-24 10:19:54

Selenium配合chromedriver爬取网页pythonscraping.com/pages/javascript/ajaxDemo.html遇到的问题记录

1 介绍Selenium是最初用于网站测试的工具,现在广泛用于网络爬虫。配合某个浏览器工具,其能自动加载网页,获取所需的数据,也能获取网页快照和判断某个事件是否在网站上发生。利用urllib.request.urlopen、或者requests.get()等方法爬取网页有一个不适用的场景是:当网页是一个JavaScript驱动时。这时得到的是预加载的内容,而不是自己真正想要的内容。如果此时,我们用浏览器手工看到的网页内容,将会与爬取的html代码不一致。在这种情况下Selenium能大显身手。Sele

2020-08-23 10:51:17

用于LaTeX Python代码展现的minted包的安装及运行该包时TeXworks编译命令的设置

目录1 介绍2 安装包minted的方法3 在Windows下配置TeXworks的针对minted包的编译指令4 minted包的运行示例1 介绍早有利于LaTeX\LaTeXLATE​X排版Python代码的需求,前年我用过pythonhighlight1包,感觉字体、高亮色彩、代码行号显示等方面做的不符合我口味。昨天晚上,思前想去,还是要找一个Python代码展现质量更高的LaTeX\LaTeXLATE​X包。我坚信一定有,至少要和书籍《Web Scraping with Python: Coll

2020-08-21 11:01:51

利用BeautifulSoup的find_all()函数查找某个标签且该标签某属性不出现

介绍HTML代码如下:<ul class="sf-r-list"> <li> <a href="/book/77" class="sc-list-cover fl"> <img class="ba_page_prvimg" onload="baImgCenter(this)" badt_outwidth="" src="https://wqxuetang.oss-cn-beijing.aliyuncs.com/cover/0/0/77/77.jpg!m"

2020-08-20 12:06:22

Scrapy-1-1-0rc3中的sel.xpath()已被Scrapy-2.3-0中的response.xpath()所替代

介绍最近看了些中英文的爬虫书,基本上都是2017年左右出版的,里面讲解的有关Scrapy的命令、代码等的用法已经运行不通了。我通过查询和阅读Scrapy-2.3-0的帮助文档,发现已经它们已经被新的命令所替代了。这说明Scrapy的版本更新比较快,并且接口的变动也比较快。其中,关于在Scrapy 1.1.0版本中,scrapy shell命令下,利用xpath()方法的接口发生了变化:#mermaid-svg-LSmLWubsLAmJ5mOq .label{font-family:'trebuchet

2020-08-19 11:27:33

写CSS选择器时标签的class属性值中有空格的问题

1 问题描述HTML代码片段为:<div class="alert alert-warning"> 请至“随书下载”下载本书的示例程序。</div><div class="book-intro readmore"> 本书通过正在学习机器学习的程序员绫乃和她朋友美绪的对话,结合回归和分类的具体问题,逐步讲解了机器学习中实用的数学基础知识。其中,重点讲解了容易成为学习绊脚石的数学公式和符号。同时,还通过实际的Python 编程讲解了数学公式的应用,进而加深读

2020-08-18 08:07:56

BeautifulSoup.select(selector)函数中参数的选择表达式的书写方法(CSS选择器)二则

1 介绍使用BeautifulSoup从网页中抓取自己需要的信息,有两种常用的方法:使用 find()或者find_all()方法,很方便,很容易直接定位到自己所需要的信息;使用select(selector)方法,能起到与方法1同样的效果。方法2相比较方法1,有一个优点是:当我们写一个通用的爬虫类时,亦即该类爬虫方法代码与网页中的具体的标签无关(同一内容在不同的网页中具体的标签是千变万化的),允许我们将不同网页的信息定位抽象出来(亦即,允许我们书写一个CSS选择器)。下面给出两个书写CSS选

2020-08-17 21:33:58

爬取新闻网页中的<P>的匹配问题

问题描述爬取新闻网页,HTML代码如下:<div id=ozoom style="ZOOM: 100%"><founder-content><P> 上图:1953年3月11日,我国第一座自动化的炼铁炉——鞍山钢铁公司第8号炼铁炉开始出铁了。铁水经过化验,质量很好。这是开始出铁时,冶金部门的领导同志、苏联专家等正在参观的情形。</P>....看到上述新闻主体内容写入到<P></P>中,我在爬虫代码中匹配时写的仍然是大写

2020-08-17 12:26:49

爬取网页中链接的正则表达式不匹配“.”的问题

问题描述要爬虫wiki内容描述页的链接,确保这些链接指向新的内容页,为此利用正则表达式,代码如下:# webCrawler.py# date: 2020-08-15from urllib.request import urlopenfrom bs4 import BeautifulSoupimport re # Because Wikipedia cann't be open, we use the following website # alternatives.html = url

2020-08-15 12:28:02

Win10系统上安装RoseV7的方法

目录1 介绍2 方法3 注意1 介绍在Win7上如何安装RoseV7,我已制作了相关视频,没问题。考虑到现在大家的电脑都是Win10系统,那么如何在Win10系统上安装RoseV7呢?本文主要讲述该问题【本来我没动力写该问题,但考虑到初学者的经验少,还是写了,以避免他们走弯路】。小注:今天下午,将“IBM.Rational.Rose.Enterprise.v7.0-TFTISO.bin“”文件传到学习通平台,然后下载,学习通平台会将该文件名变为IBM.Rational.Rose.Enterprise

2020-05-24 17:39:02

Python中利用BeautifulSoup4反查包含文本内容的标签

目录1 问题引出2 问题分析3 解决方案1 问题引出编写爬取Amazon服装行业数据时,遇到一个问题:根据文本内容Next反查包含它的父标签。请看下面HTML片段<li class="a-last"><a href="/s?k=red+tshirt&i=fashion-mens&page=2&qid=1588904638&a...

2020-05-08 16:38:41

阅读《Practical web scraping for data science》p161的代码之 Cannot operate on a closed database错误

问题描述最近阅读了一本爬虫方面的书1,按照书上161页的代码原封不动的敲到电脑中,编写一个爬虫蜘蛛,但运行以后出现以下错误:Error closing cursorTraceback (most recent call last):File “E:\StudyCard\BigData\WebScrape\PWSfDScode.pwsenv\lib\site-packages\sqlalc...

2020-04-24 12:30:17

Python的包tkinter中的canvas.winfo_height()或canvas.winfo_width()返回值1的解决

目录问题描述解决方案问题描述下述代码:from tkinter import *import randomimport timeclass SnakeHead: def __init__(self,canvas,color): self.canvas = canvas self.id = canvas.create_oval(10,10,25...

2020-04-10 08:20:59

禁用和卸载Hyper-V后让自己电脑运行速度快

问题描述去年暑假左右,到电脑城买了一台新电脑,3500元左右,CPU性能一般,为了能让自己电脑运行速度快些,购买电脑时主动增加内存条,达到12G。暑假中,又捡起自己虚拟机方面的兴趣,知道Win10操作系统能够利用Hyper-V的方式支持直接在硬件上虚拟机。于是,我就捣鼓开来。断断续续,中间由于工作的原因,搁置下来,但最后,我取得了成功,在自己的新电脑上成功打开了Hyper-V的组件功能,并利用H...

2020-02-25 23:40:29

通过买新电脑a时买的正版"Windows 10 pro for OEM key"升级电脑b操作系统Windows 10 home 到 专业版pro

问题描述一年多前的这个时候,我有一台新电脑bbb,操作系统为Windows 10 home家庭版本。我真正使用Win10 操作系统也是从该电脑开始。而同时一直坚持使用电脑ccc,处于两台电脑bbb和ccc同时使用的状态。电脑ccc安装的操作系统为Win7专业版。一开始接触电脑bbb时,我心理有种不舒服的感觉:毕竟作为电脑专业人员,自己的专业又是计算机软件,用家庭版的Win10操作系统显得不专业。...

2019-07-07 03:16:58

用LaTeX通过键盘直接输入特殊符号时不能与其他字符编码包混用

这一点一定要注意。如果混用,则编译输出的结果没效果,即显示不出特殊符号。特殊符号的输入我利用搜狗输入法的软键盘的特殊符号部分输入的。下图通过注释掉其他的字体编码包,从而得到正确的结果:...

2019-07-05 23:57:42

TeXworks编辑器的编辑区的中文显示问题

问题描述最近在自己的Win10专业版电脑上安装了TeXlive 2019,重新使用TeXworks编辑器书写文档,但发现了一个问题,如下图所示:编译输出的汉字显示正确,但是在TeXworks的编辑区显示的中文不正确。不正确显示的两个例子已在图中用红色连接线标出。自己试探出的解决方案在编辑区显示不正确的中文,总感觉不舒服,给人一种错觉,纵然编译输出是正确的。所以我就试探了一种解决方案。在...

2019-07-05 20:58:26

使用Camtasia 2018录制视频时设置显示鼠标光标 (Cursor)

问题描述最近,开始使用Camtasia 软件制作教学视频。其中一些软件操作使用方法的视频是通过该软件录制屏幕完成的。通过数次的录制屏幕的操作经验,我使用软件Camtasia越来越熟练。可完美中带有缺憾,录制的视频不带鼠标光标。经过课堂上与热心同学的讨论所受的启发,再加上自己搜索相关资料,最终解决了该问题。注意:我用的版本为 Version 2018.0.3 (Build 3747) -Aug...

2019-06-04 15:58:01

在VMware Workstation 15.0.2 player上利用“事后安装操作系统”的方法安装Win10 64bit不成功及其对策

问题描述当前环境:host OS: Win10 64bit HomeHypervisor: VMware Workstation 15.0.2 player我按照书籍《Virtualization Essentials, Second Edition》(Matthew Portnoy, 2016)中的安装Win10 64bit虚拟机操作系统的方法安装,始终不能成功。该书的方法是:先...

2018-12-31 11:21:03

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。