自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

源始天空

闲散浪人

  • 博客(12)
  • 收藏
  • 关注

原创 C#关于教程里反射的代码错误记录

错误代码:foreach (MethodInfo m in type.GetMethods()) { foreach (Attribute a in m.GetCustomAttributes(true)) { DeBugInfo dbi = (DeBugInfo)a; ...

2018-10-24 09:23:53 506 2

原创 kali linux 源以及linux内核安装遇到的一些问题记录

解除学习kali linux时,在网上找了很多源,都不适合,后来找到了一个合适的源,事后发现可以通过lsb_release -a查询自己的linux版本,然后使用对应版本的源即可。记录一下,源:# 163deb http://mirrors.163.com/debian/ wheezy main contribdeb http://mirrors.163.com/debian/ wh...

2018-09-20 18:07:32 896

原创 linux 安装 scrapy 报错 ‘段错误’

在执行命令:pip3 install scrapy时,一直报错‘段错误’ 尝试了很多种解决办法 最后利用管理员权限安装成功了sudo pip3 install scrapy

2018-07-02 09:31:02 1373 1

原创 Linux 安装 twisted 报错 error: ommand ‘x86_64-linux-gnu-gcc’ failed

之前Linux内置的版本是3.5,自己重装了个3.6,估计因此要重装依赖包。 按照所需版本安装: For Python 2.x use:$ sudo apt-get install python-devFor Python 2.7 use:$ sudo apt-get install libffi-devFor Python 3.x use:$ sudo apt-g...

2018-07-02 09:21:23 426

原创 scrapy入门级使用

工作果然都是用的scrapy进行采集数据……今天工作上学习了一下,下班回到家的记录。 先理解scrapy的概念流程(功能流程图自寻)。Scrapy框架功能流程:scrapy框架先是将spider里的目标网站信息入栈scheduler,然后对网站进行requests后,将response输入Downloader,Downloader将response返回到spider并按照spider...

2018-04-27 20:57:57 184

原创 python数据处理 json字符串转换成字典

今天工作的时候遇到了这个问题,花了一个小时才解决这个问题,回到家记录一下。 有时候,爬虫爬取的数据是json字符串,大概模式如下:'[{"id": 1,"num": 1},{"id": 2,"num": 2},{"id": 3,"num": 3}]'处理这类json字符串时候,需要用到json库的json.loads()函数。类似代码如下:res = str(string,

2018-04-27 20:28:00 7325 1

原创 vim配置(python)

添了几个小插件,让自己的vim编辑器更像回事,也提高一下效率。 网上查阅后,自己配置用了这么几个。如果看到熟悉的,不要怀疑,就是一样的。一、vundle这个是必须要添加的,其功能是给linux安装第三方插件用 在~/.vimrc文件顶部注释下直接添加如下代码(必须要装在最上面):set nocompatible syntax onfiletype off"set the r...

2018-04-07 14:42:30 1181

原创 linux下pip3下载的库文件python无法使用

环境如下:kali linux、python3.6(系统内还有python2)问题描述:pip3下载库文件后,python无法使用。 报错找不到此库文件。 执行pip3 -V后,显示的也是正常的版本。解决办法:第一步,卸载python3自带的pip3。pip3下载的库文件所在的目录不是python3.6的目录,于是选择先删除看看。删除过后,pip3依旧能正常运行,于...

2018-04-07 00:42:06 2059

原创 linux下pip安装Tesseract报错ReadTimeoutError解决办法

网上很多版本,这里就记录一下解决办法。 我使用的是kali linux、python3。 输入的指令是pip3 install Tesseract,报错如下:requests.packages.urllib3.exceptions.ReadTimeoutError:HTTPSConnectionPool(host='pypi.python.org', port=443): Read T...

2018-04-06 21:51:58 1136

原创 python+selenium+headless chrome完成对信息的采集

写完记录一下,看着《python网络数据采集》写的,踩了一堆坑……索幸踩着踩着习惯了……思路一开始的idea是通过输入番号,将番号输入指定搜索引擎,返回搜索引擎搜索到的第一页十个信息,翻页处理这里没有加(主要是个人觉得十个信息也够了)。功能完整的包括了搜索返回信息并且将信息,以搜索信息为名的txt文件存储到当前目录(相对路径)。直接上代码(相关网址已经用URL代替,这个还是不要太直...

2018-03-23 21:33:04 1243

原创 《python网络数据采集》第七章关于2gram模型数据标准化的代码补齐记录

本书第七章,有一段关于ngram模型的介绍,作者用2gram来详细讲解模型。在数据标准化模块里,作者为了对数据的去重和频率,引入了collections库的OrderedDict函数。其功能是将指定的字典依照value值进行排序。不过作者并未写出完整代码,所以单纯补上那一段函数调用代码是没用的,要补填代码。 怕忘,就选择了即时记录。遇到,解决了就记录下来,并且贴上我的理解。完整代码:...

2018-03-16 19:30:31 707 1

原创 关于《Python网络数据采集》上的一些无法运行的代码记录

最近自学爬虫的过程中,发现了这本书上个别会引发运行错误的代码,解决后,进行记录。一,第五章第一节媒体文件中的一段代码书上原代码为:def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory): path = adsoluteUrl.replace("www.","") path = path.repla...

2018-03-15 20:27:32 331

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除