自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 python 爬虫爬取所有上市公司公告信息(五)

。,。现在我们进过for循环,已经获取到了每一个股票代码在2015年至今所有的公告内容连接和公告日期,且是以(日期,公告内容url)元组的形式加入到了爬取队列中,在最内层循环结束后,我们编写程序实现多线程和储存公告内容的功能。公告最终在对应的json文件里是以键值对的形式存在的,日期则是以后调用对应公告内容的键。 model = {} while True:

2017-10-05 15:00:17 6486 2

原创 python 爬虫爬取所有上市公司公告信息(四)

。,。前一篇文章我们编写好了爬取的类,现在我们开始

2017-10-05 14:13:53 5957

原创 python 爬虫爬取所有上市公司公告信息(三)

。,。数据源和爬取的方式我们已经确定,接下来我们构建数据的储存格式和进行爬取类的程序编写。首先,为了方便调用,爬取的公告信息必须以对应的股票分类,这里我们使用股票的代码作为分类依据。一个股票代码文件对应该股票所有的公告信息。但如果我们只用股票代码做简单的一层分类,文件也过大,并不方便调用。于是进一步将公告信息按年份与月份分类,形成三层数据结构。每一个月份为一个json文件,内涵该股票代码对

2017-10-05 13:22:36 6049

原创 python 爬虫爬取所有上市公司公告信息(二)

。,。设计公告信息爬虫面临的主要问题在上一篇文章已经叙述过了,现在我们开始按照这个思路设计框架,开始编写程序。首先选择爬取的数据源,这里笔者经过多方比较,最终选择了东方财富网作为公告爬虫的数据源。下面以飞马国际为例(002210)我们可以看到,东方财富网专门设有网页保存对应股票的公告信息,但通过翻页操作观察地址栏,该网页的股票公告链接是属于ajax异步加载。根据前面的知识,

2017-10-05 11:40:41 11838

原创 python 爬虫爬取所有上市公司公告信息(一)

。,。前面我们已经了解了python中多线程,selenium,requests等爬虫基本操作的知识,现在我们准备编写一个规模较大的爬虫,目的是爬取所有上市公司2015年至今的公告信息。相较于前面几个简单的爬虫功能代码,公告信息爬虫需要考虑更多的问题,现在可以预见到的问题有1. 爬取公告信息网址的选择在开始爬取之前我们必须选择一个合适的数据源,如果能找到一个好的数据源会极大的提高爬取的

2017-10-05 11:07:41 15178

原创 python中的多线程爬虫

。,。本文是在学习网络爬虫课程期间写的,目的是为了总结所学的知识,内容都是笔者自己对多线程爬虫的理解,其中多有不足,希望不吝指教。    多线程和单线程的区别在于线程的数量(字面意思理解),但多线程中各个线程之间数据空间和代码都是共享的,且每一个线程都有自己独立的寄存器。   多线程的复杂性和优缺点也基本都是围绕着它数据空间共享的特点衍生出来的,对共享空间数据的安全性,数据操作的互斥性,容

2017-08-29 15:09:22 887

原创 python—如何使用post进行登录操作与非对称加密的破解

。,。笔者最近正在学习网络爬虫,而在爬取数据的过程中,登录是一个很棘手的问题,但有一些信息却只有登录之后才能获取到。在课程的学习后,我也查看了一些网上关于程序如何处理登录的文章,小有收获,作为初学者,文中的错误和不足希望不吝指教。       在设计爬虫程序处理登陆问题的时候,总的方式有两种,一是使用selenium模拟人的操作,由于selenium可以使用html和script的代码,我们可

2017-08-29 01:50:04 4070 1

原创 关于python中phantomjs无法访问网页的处理

。,。笔者使用的系统是linux ubuntu,最近在学习爬虫的过程中遇到了一个抓狂的问题,我尝试使用selenium加phantomjs来登陆网页的时候,Pythony一直提示selenium无法找到元素,不管我怎样修改定位的方法,永远出现No such elements的错误,让我几乎抓狂。再确认了测试了好几遍编写的代码后,我将程序出现的错误定位在了其中这几行代码里面>>> from se

2017-08-29 01:14:46 4051 4

原创 python爬虫——用selenium和phantomjs对新浪微博PC端进行爬取(二)

。,。上一篇文章里我选择爬取简单的微博移动端,由于移动端构造简单,一般都优先爬取移动端,且因为是静态页面,我们可以直接使用xpath或者正则表达式搞定,但pc端结构就复杂得多,不能使用前面的方法。这篇文章我尝试使用selenium加phantomjs的组合,模拟人的操作来对指定微博的PC端进行爬取。        这次我们选择的种子网页依旧是工商秘密微博,但爬取信息范围更广,我们需要爬虫不止拿

2017-08-29 01:10:13 4688 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除