BoogieAres-CSDN博客

原创 C#关于教程里反射的代码错误记录

错误代码：foreach (MethodInfo m in type.GetMethods()) { foreach (Attribute a in m.GetCustomAttributes(true)) { DeBugInfo dbi = (DeBugInfo)a; ...

2018-10-24 09:23:53 506 2

原创 kali linux 源以及linux内核安装遇到的一些问题记录

解除学习kali linux时，在网上找了很多源，都不适合，后来找到了一个合适的源，事后发现可以通过lsb_release -a查询自己的linux版本，然后使用对应版本的源即可。记录一下，源：# 163deb http://mirrors.163.com/debian/ wheezy main contribdeb http://mirrors.163.com/debian/ wh...

2018-09-20 18:07:32 896

原创 linux 安装 scrapy 报错 ‘段错误’

在执行命令：pip3 install scrapy时，一直报错‘段错误’ 尝试了很多种解决办法最后利用管理员权限安装成功了sudo pip3 install scrapy

2018-07-02 09:31:02 1373 1

原创 Linux 安装 twisted 报错 error: ommand ‘x86_64-linux-gnu-gcc’ failed

之前Linux内置的版本是3.5，自己重装了个3.6，估计因此要重装依赖包。按照所需版本安装： For Python 2.x use:$ sudo apt-get install python-devFor Python 2.7 use:$ sudo apt-get install libffi-devFor Python 3.x use:$ sudo apt-g...

2018-07-02 09:21:23 426

原创 scrapy入门级使用

工作果然都是用的scrapy进行采集数据……今天工作上学习了一下，下班回到家的记录。先理解scrapy的概念流程(功能流程图自寻)。Scrapy框架功能流程：scrapy框架先是将spider里的目标网站信息入栈scheduler，然后对网站进行requests后，将response输入Downloader，Downloader将response返回到spider并按照spider...

2018-04-27 20:57:57 184

原创 python数据处理 json字符串转换成字典

今天工作的时候遇到了这个问题，花了一个小时才解决这个问题，回到家记录一下。有时候，爬虫爬取的数据是json字符串，大概模式如下：'[{"id": 1,"num": 1},{"id": 2,"num": 2},{"id": 3,"num": 3}]'处理这类json字符串时候，需要用到json库的json.loads()函数。类似代码如下：res = str(string,

2018-04-27 20:28:00 7325 1

原创 vim配置（python）

添了几个小插件，让自己的vim编辑器更像回事，也提高一下效率。网上查阅后，自己配置用了这么几个。如果看到熟悉的，不要怀疑，就是一样的。一、vundle这个是必须要添加的，其功能是给linux安装第三方插件用在~/.vimrc文件顶部注释下直接添加如下代码（必须要装在最上面）：set nocompatible syntax onfiletype off"set the r...

2018-04-07 14:42:30 1181

原创 linux下pip3下载的库文件python无法使用

环境如下：kali linux、python3.6（系统内还有python2）问题描述：pip3下载库文件后，python无法使用。报错找不到此库文件。执行pip3 -V后，显示的也是正常的版本。解决办法：第一步，卸载python3自带的pip3。pip3下载的库文件所在的目录不是python3.6的目录，于是选择先删除看看。删除过后，pip3依旧能正常运行，于...

2018-04-07 00:42:06 2059

原创 linux下pip安装Tesseract报错ReadTimeoutError解决办法

网上很多版本，这里就记录一下解决办法。我使用的是kali linux、python3。输入的指令是pip3 install Tesseract，报错如下：requests.packages.urllib3.exceptions.ReadTimeoutError:HTTPSConnectionPool(host='pypi.python.org', port=443): Read T...

2018-04-06 21:51:58 1136

原创 python+selenium+headless chrome完成对信息的采集

写完记录一下，看着《python网络数据采集》写的，踩了一堆坑……索幸踩着踩着习惯了……思路一开始的idea是通过输入番号，将番号输入指定搜索引擎，返回搜索引擎搜索到的第一页十个信息，翻页处理这里没有加（主要是个人觉得十个信息也够了）。功能完整的包括了搜索返回信息并且将信息，以搜索信息为名的txt文件存储到当前目录（相对路径）。直接上代码（相关网址已经用URL代替，这个还是不要太直...

2018-03-23 21:33:04 1243

原创《python网络数据采集》第七章关于2gram模型数据标准化的代码补齐记录

本书第七章，有一段关于ngram模型的介绍，作者用2gram来详细讲解模型。在数据标准化模块里，作者为了对数据的去重和频率，引入了collections库的OrderedDict函数。其功能是将指定的字典依照value值进行排序。不过作者并未写出完整代码，所以单纯补上那一段函数调用代码是没用的，要补填代码。怕忘，就选择了即时记录。遇到，解决了就记录下来，并且贴上我的理解。完整代码：...

2018-03-16 19:30:31 707 1

原创关于《Python网络数据采集》上的一些无法运行的代码记录

最近自学爬虫的过程中，发现了这本书上个别会引发运行错误的代码，解决后，进行记录。一，第五章第一节媒体文件中的一段代码书上原代码为：def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory): path = adsoluteUrl.replace("www.","") path = path.repla...

2018-03-15 20:27:32 331

源始天空