- 博客(15)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 (原创)反爬虫策略对抗实战(一)——绕过网页请求认证
(原创)使用爬虫爬取js生成的网页前日同组的同事联系我帮他查看一个网站,该网站的数据保护相对严格,难以直接使用scrapy或者requests等爬虫工具直接进行爬取。待爬取的网站和内容待爬取的网站:https://software.cisco.com/download/home?from=singlemessage&isappinstalled=0该网站是Cisco的路由器和其...
2019-04-16 17:22:08 3910 3
原创 (原创)clang的python接口教程(二)
clang的python接口(二)N久之前的一个坑了,今天来为大家填上。(果然需求是第一生产力)常用类AST的构建遍历AST语法单元提取分词提取Democlang的python接口二常用类AST的构建前序遍历AST语法单元提取分词的提取参考资料常用类Index: 这个类是clang的核心类。具有构建语法树的主类。 常用方法: create() '''
2017-11-23 15:44:55 7690 3
原创 欢迎使用CSDN-markdown编辑器(留档)
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-11-23 11:01:12 264
原创 (原创)Cassandra数据库的优化总结
(原创)Cassandra数据库的优化总结[TOC] 实验室的源代码分析系统的Cassandra数据库优化过程从十一放假开学起cassandra一直出现的超时,崩溃等一系列问题就一直得不到解决。现在已经解决,把解决过程记录与此。0x01:分析原因起初分析原因,认为是一些基础设置不够到位,例如cassandra.yaml等配置不够好。因为cassandra不只是查询速度慢,其他操作例如插入之类的也会
2017-10-26 20:59:54 4592
原创 (原创)python的字符串读写和二进制读写
python的文本读写和二进制读写python的文本读写和二进制读写字符串读写和二进制读写 问题代码复现笔者在之前的文档里面提出过,scrapy框架本身存在大文件下载的问题,因此产生了改造scrapy的想法,这里在修改下载模块(FilesPipeline)的时候遇到了文本读写和二进制读写的问题。(scrapy具体bug见笔者的另外一两博客:scrapy的MemoryError(续),scra
2017-10-18 10:36:17 4639
原创 (原创)cmake的编译命令提取过程
cmake的编译命令提取过程工作背景生成编译信息提取编译信息cmake的编译命令提取过程本来今天应该更新《clang的python bindings(二)》的,但是根据实验室师兄的要求,先更新这一篇。工作背景由于项目需要,我们要针对每个开源项目中的源代码文件(.cpp,.cc,*.c)进行分析,提取其所有的函数以及其中调用的其他函数。为了保证信息提取的准确,我们需要在每个源代码文件分析的时候加
2017-08-30 11:29:53 5498
原创 (原创)clang的python接口(一)
clang的python bindings一背景libclang的python接口配置小结clang的python bindings(一)背景众所周知,llvm是一个十分强大的编译器前段,由此衍生出的clang编译器已经十分成熟,大有在将来取代gcc的趋势。同时,clang也提供了强大的开发接口libclang,可以十分有效的进行词法和语法分析的工作。libclang的python接口配置下
2017-08-20 10:26:42 9064 5
原创 (原创)利用页面交叉引用反馈爬取vulners.com的数据
因为实验室的工作需要,需要对vulners.com网站上的漏洞信息和相关链接进行数据爬取,但是vulners本身对爬虫的限制非常严格,前端页面都是由react.js生成的,很难单纯靠爬虫获取html数据。
2017-07-27 12:37:49 1069
原创 (原创)scrapy的MemoryError(后续)
scrapy的MemoryError后续问题分析scrapy的MemoryError(后续)问题之前写过一篇关于scrapy的MemoryError的博客,主要是介绍了MemoryError这个异常出现的原因和解决方案,但是对于其原因的探讨似乎还是不太明了,这次我们来深入探讨一下这个问题。 “`分析这个问题真正的原因是因为scrapy在大文件下载时出现的一个bug所致,深入分析其源代码可以发现
2017-07-26 11:34:28 6843
转载 (转载)Google 面试题 | 132模式 Python 版本
撰文 | ben助教编辑 | Francesca jin专栏 | 九章算法题目描述对n个数的序列,a1,a2,……,an,判断是否存在i样例1输入: [1,2,3,4]输出: False样例2输入: [3,1,4,2]输出: True说明: [1,4,2]是一个132模式样例3
2017-07-18 10:56:54 448
原创 (原创)scrapy的MemoryError
(原创)scrapy的MemoryError原创scrapy的MemoryError背景知识MemoryErrorscrapy爬虫的内存检查问题代码使用telnet进行检查代码修改背景知识MemoryErrorMemoryError是python的常见异常之一,可以通过查看python的在线文档来进行了解:exception MemoryErrorRaised when an oper
2017-07-17 14:50:31 1598
原创 (原创)python函数内部函数
python函数内部函数根据研究组的项目需求,需要用爬虫爬取一些gitlab上的项目信息,这里遇到了一个奇怪的错误。python函数内部函数项目背景原因分析分析和总结其他收获项目背景问题出现在scrapy的pipelines这个模块里面,当时的代码是如下的模式: class FilesPipeline(FilesPipeline): def get_me
2017-07-10 09:43:25 2344
转载 (转载)Eclipse配置js,html,等的自动提示
1.打开eclipse→Windows→Preferences→Java→Editor→Content Assist修改Auto Activation triggers for java的值为 .abc 点击OK2.继续打开JavaScript→Editor→Content Assist修改Auto Activation triggers for javaScript的值为
2017-06-16 14:45:46 407
原创 (原创)名企笔试:2017网易游戏笔试 (赛马)
名企笔试2017网易游戏笔试赛马题目思路代码实现名企笔试:2017网易游戏笔试(赛马)题目在一条无限长的跑道上,有N匹马在不同的位置上出发开始赛马。当开始赛马比赛后,所有的马开始以自己的速度一直匀速前进。每匹马的速度都不一样,且全部是同样的均匀随机分布。在比赛中当某匹马追上了前面的某匹马时,被追上的马就出局。 请问按以上的规则比赛无限长的时间后,赛道上剩余的马匹数量的数学期望是多少 利用的是
2017-04-01 13:17:33 1236
原创 (原创)python zipfile实现压缩整个目录和子目录
python zipfile实现压缩整个目录和子目录zipfile背景简介核心原理DFS代码实现python zipfile实现压缩整个目录和子目录zipfile背景简介zipfile是python提供的一个简单高效的模块。可以用很迅速的方法来进行文件压缩和解压的过程。 细节性的内容可以查看zipfile的文档 zipfile文档 这里先介绍几个简单的方法 f = zipfile.Zip
2017-04-01 12:53:39 19914 1
java虚拟机在进行类型强制转换的时候究竟做了什么
2016-01-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人