自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 python定向爬虫——爬取某代理Ip网站上的所有ip

爬取一个网站的基本过程确定目标 –> 分析目标 –> 编写程序 -> 执行爬虫 分析目标: url 格式 数据格式 网页编码分析目标数据在源代码里的结构,以便在后去整个页面源代码后,可以利用正则进行匹配。注意:目标网站的格式会随时升级,定向爬虫也需要定期升级。实例:爬取某代理Ip网站上的所有ip确定目标:爬取西刺代理上存活一年以上的高匿代理IP

2017-08-13 15:43:04 5279 2

原创 python对象引用、深浅拷贝

想必大家都了解python是引用计数的方式来管理的。那么python 是真的“传对象引用?实际上,python是采用传值和传引用结合的一种方式。如果函数收到的是一个可变对象(比如字典或者列表)的引用,就能修改对象的原始值——相当于通过“传引用”来传递对象。如果函数收到的是一个不可变对象(比如数字、字符或者元组)的引用,就不能直接修改原始对象——相当于通过“传值’来传递对象。 (”’) asdf...

2018-09-20 22:38:30 317

原创 centos7 防火墙及端口

查看防火墙状态:firewall-cmd -- state关闭防火墙:systemctl stop firewall.service开启防火墙:systemctl start firewall.service禁止开机启动:systemctl disable firewall.service查看开放的端口:firewall-cmd --list...

2018-04-11 10:15:15 749

转载 Elasticsearch5.0 安装问题集锦

原创地址:http://www.cnblogs.com/sloveling/p/elasticsearch.html Elasticsearch5.0 安装问题集锦 elasticsearch 5.0 安装过程中遇到了一些问题,通过查找资料几乎都解决掉了,这里简单记录一下 ,供以后查阅参考,也希望可以帮助遇到同...

2018-04-04 16:10:34 257

转载 一图让你明白爬虫与反爬虫手段

爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通...

2018-04-02 16:15:45 11801 6

原创 elasticsearch的一次体验——5.批量操作

指定索引,类型,id获取多条数据GET _mget{ "docs":[ { "_index":"job", "_type": "job1", "_id": 1 }, { "_index":"job", "_type": "job2", "_id": 1 } ]}获取相同索

2018-02-02 14:55:16 1255

原创 elasticsearch的一次体验——4.es的基本操作

PUT添加一个数据PUT job/job1/2{ "title":"python攻城师", "salary": 10000, "company": { "name":"baidu", "addr":"beijing" }, "date":"2107.11.8"}GET查看整条数据携带有index,type,id…GET job/j

2018-02-02 14:48:30 234

转载 马哥让你了解Elasticsearch

原创:http://blog.51cto.com/mageedu/1714522?utm_source=tuicool&utm_medium=referral   各位运维同行朋友们,大家好,非常高兴能有这么个机会与大家一起交流一些技术问题。此前的各位分享达人们在技术领域或管理领域均有十分精彩的分享,他们带给我们的是多个领域中研究或实践的最前沿知识。这使我本人获益良多,首先要郑重感谢他们。

2018-02-02 14:15:34 683

原创 elasticsearch的一次体验——3.安装插件(head、kibana)

1、安装elasticsearch-head-masterhead 插件是最好安装的其中一个, elasticsearch head 是集群管理工具、数据可视化、增删改查工具,也非常好用。(1)安装npmelasticsearch-head,的安装要用到node.js的npm 插件管理器 所以要先安装node.js的npm 插件管理器,安装npm(2)下载elasti

2018-02-02 10:20:22 1285

转载 nohup和&不是一个东西

看个小程序#include #include int main () { int x = 0; while(1) { printf("hello %d, pid %u, ppid %d\n", x++, getpid(), getppid()); sleep(1); } re

2018-02-01 15:47:50 750

原创 centos安装npm和使用cnpm

安装npmnpm命令是node.js的npm 插件管理器,也就是下载插件安装插件的管理器。 安装命令:yum install nodejs安装成功查看版本npm -v使用淘宝的npm镜像cnpm因为下载都是国外服务器很慢会掉线,我们需要使用淘宝的npm镜像cnpm。 执行命令: npm install -g cnpm --registry=https://

2018-01-30 18:32:36 37410

原创 elasticsearch的一次体验——1.Java环境的安装

1.删除系统自带的一些jdk通过 rpm -qa | grep Java 命令来查询出系统自带的jdk。 并使用 rpm -e –nodeps 文件名 将其清除 例如:rpm -e –nodeps java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64 只保留如下三项javapackages-tools-3.4.1-11.el7.noar

2018-01-30 17:33:12 1565

原创 linux安装curl、开启端口、安装lrzsz

安装curl 1.下载curl安装包: https://curl.haxx.se/download.html 2.解压: 如    tar zxvf curl-7.39.0.tar.gz 3.进入解压后的curl文件夹 : cd curl-7.39.0 4.输入: ./configure --prefix=/usr/local/curl  5输入: make && m

2018-01-30 16:53:09 2786

原创 elasticsearch的一次体验——2.centos7安装elasticsearch5

1. 安装java环境Elasticsearch是由Java开发的,所有首先要安装Java环境。在这里默认你已经安装好了Java环境,如果没有可以到 Java环境安装 查看安装。2. 下载Elasticsearch选择安装的版本,es官网下载地址 将下载好的压缩包上传到服务器。在这里可以选择安装ftp服务,也可以使用在线导入安装包的插件。 ftp安装查看 lrzsz插

2018-01-30 16:45:01 219

原创 python装饰器(decotator)详解

先来看看一个列子def foo(): print '我是lxshen'foo()输出:我是lxshen这时我想在这个输出前面再执行一段程序。这时我们首先想到的是以下两种方法:方法一:直接在函数中添加def foo(): print 'hello,', print '我是lxshen'foo()输出:hello, 我是lxshen方法二:我再另写一个函数,再foo函数中调

2017-11-18 16:57:51 1320

原创 python 闭包和装饰器详解

什么是闭包python中的闭包从表现形式上定义(解释)为: 如果在一个内部函数里,对在外部作用域(但不是在全局作用域)的变量进行引用,那么内部函数就被认为是闭包(closure)。需要满足的条件:一个函数内嵌套一个函数函数返回值必须是这个嵌套的函数嵌套的函数必须使用父函数中的局部变量1.举一个简单的例子def fun_1(): num_1 = 9 def fun_2(num

2017-11-18 14:34:17 616

转载 乐视mysql面试题

http://blog.itpub.net/28916011/viewspace-2093197/1. MYISAM和INNODB的不同? 答:主要有以下几点区别: a)构造上的区别 MyISAM在磁盘上存储成三个文件,其中.frm文件存储表定义;.MYD (MYData)为数据文件;.MYI (MYIndex)为索引文件。 而innodb是由.frm文件、表空间(

2017-11-15 22:41:16 319

原创 scrapyd部署爬虫遇到的问题

1.windows下 scrapyd-deploy无后缀文件不能启动:执行命令pip install scrapy-client,安装完成后,在虚拟环境的scripts中会出现scrapyd-deploy无后缀文件,这个scrapyd-deploy无后缀文件是启动文件,在Linux系统下可以运行,在windows下是不能运行的,所以我们需要编辑一下使其在windows可以运行。新建一个scrapyd

2017-11-14 21:32:35 6262 6

原创 ubuntu下scrapyd部署爬虫项目

Scrapyd是一个部署和运行Scrapy爬虫的应用程序。它使你能够通过JSON API部署(上传)工程,并且控制工程中的爬虫。scrapyd部署爬虫的优势:1、方便监控爬虫的实时运行状态,也可以通过接口调用开发自己的监控爬虫的页面2、方便统一管理,可以同时启动或关闭多个爬虫3、拥有版本控制,如果爬虫出现了不可逆的错误,可以通过接口恢复到之前的任意版本注意:在安装scrapyd之前要确保你的

2017-11-14 20:46:41 2603

原创 部署ftp

介绍FTP 是File Transfer Protocol(文件传输协议)的英文简称,而中文简称为“文传协议”。用于Internet上的控制文件的双向传输。同时,它也是一个应用程序(Application)。基于不同的操作系统有不同的FTP应用程序,而所有这些应用程序都遵守同一种协议以传输文件。而之所以部署ftp,就是为了方便在服务器上部署项目。 1.安装ftpsudo apt-get insta

2017-11-05 16:32:35 681

原创 Windows下忘记MySQL root密码的解决方法

1.关闭服务:net stop 服务名称2.将 MySQL Workbench 6.3 CE 中的data文件复制到MySQL Server 5.7中3.使用mysqld 来启动服务在cmd下执行 mysqld --skip-grant-tables命令执行后,用户无法输入指令,此时如果在任务管理器中可以看到名称为mysqld的进程,则表示可是使用ro

2017-09-16 17:51:41 545

原创 Mysql学习之——视图

认识视图什么是视图视图是一个虚拟表,是从数据库中一个或多个表中到出来的表。视图还可以从已经存在的视图的基础上定义。视图的作用 1.简单化 将那些被经常使用查询的定义为视图,从而使得用户不必为以后的操作每次指定全部的条件。 2.安全性 通过视图用户只能呢查询和修改他们所能见到的数据。数据库中的其他数据则机看不见也去不到。数据库授权命令可以使每个用户对数

2017-09-13 22:57:57 300

原创 python爬虫之BeautifulSoup的用法

概念:Beautiful Soup 是什么?Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。目前Beautiful Soup3已经停止开发,推荐使用Beautiful Soup4解析器Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个

2017-08-21 23:05:35 570

原创 python 网络爬虫——cookie的使用

什么是cookie?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 客户端访问服务器的过程 为什么要使用cookie模拟登陆?有些网站需要登陆后才能访问摸个页面,在登陆之前,我们想住区某个页面内容是不允许的,那么我们可以利用urllib2库保存我们登陆的cookie,然

2017-08-11 22:32:00 514

原创 python 网络爬虫——请求头,ip代理

1.构造合理的 HTTP 请求头(1)为什么要伪装? 有些网站在处理请求的时候,会对请求头中的字段进行判断,如果发现这个请求头中出现有关爬虫程序的信息,会对这个请求做出禁止访问或者封杀的操作,因此我们需要对请求进行伪装,让网站无法分别请求是否为爬虫。(2)分析:爬虫爬取网页时: 经典的 Python 爬虫在使用 urllib 标准库时,都会发送如下的请求头:

2017-08-10 20:55:49 1849

原创 面向对象-类

类的使用:类的概念类是定义同一类所有对象的变量和方法的蓝图或原型类里的预定义方法**__init__() '构造器'方法** 任何所需的特定操作,都需要程序员实现__init__(),覆盖他的默认行为。 在实例化一个对象时,实例对象作为第一个参数(self)被传进去,并且会自动执行这个方法。进行属性的初始化。 **注:学过c++的都知道this

2017-08-07 21:47:03 282

原创 css-背景设置

背景处理可以使用 background-color 属性为元素设置背景色。这个属性接受任何合法的颜色值。 默认加载原图,图片左上角和标签的左上角对齐设置背景图片:background-image: url(3.jpg);设置背景图片加载大小,百分比(像素也可以):background-size: 100% 100%;设置图片不重新加载(也可以只在x方向和y方

2017-08-02 21:22:36 380

转载 基于 Token 的身份验证

基于 Token 的身份验证原文:http://ninghao.net/blog/2834最近了解下基于 Token 的身份验证,跟大伙分享下。很多大型网站也都在用,比如 Facebook,Twitter,Google+,Github 等等,比起传统的身份验证方法,Token 扩展性更强,也更安全点,非常适合用在 Web 应用或者移动应用上。Token 的中文有人翻译成 “令牌”,我觉得挺好,意思就

2016-12-09 22:02:44 308

原创 Dvwa系列之csrf

CSRF(Cross-site request forgery)CSRF,全称Cross-site request forgery,翻译过来就是跨站请求伪造,是指利用受害者尚未失效的身份认证信息(cookie、会话等),诱骗其点击恶意链接或者访问包含攻击代码的页面,在受害人不知情的情况下以受害者的身份向(身份认证信息所对应的)服务器发送请求,从而完成非法操作(如转账、改密等)。CSRF与XSS最大的

2016-12-09 21:43:12 1407

转载 xss其他标签下的js用法总结

xss其他标签下的js用法总结大全<script src=js地址></script>实际上我们的测试语句可能为↓<script>alert("90sec")</script>也就是说js语句实际上是位于↓ <script></script>的中间。包括<img>、<input>、<object>、<iframe>、<a></a>、<svg>、标签等情况下的xss构造。所以我们就需要了解各种标签下

2016-10-30 17:37:49 2107

原创 xss初了解

1.什么是xss跨站脚本跨站脚本是一种常见出现在web应用程序中的计算机安全漏洞,是由于web应用对用户的输入过滤不足而产生的。攻击者用网站漏洞吧恶意的脚本代码(通常包括HTML代码和客户端javascript脚本)注入到网页中,当其他用户浏览这些网页是,就会执行其中的恶意代码,对受害用户可能采取cookie资料窃取,回鹘劫持,钓鱼欺骗等各种攻击。2.html常用代码的属性了解xss发起的基础就是构

2016-10-30 16:54:37 623

转载 kali2.0vmware-tools安装

众所周知,我们用vmware的时候总要安装vmware-tools来方便我们与宿主机共享文件,这也极大地方便了我们的操作;所以安装也是必要的选择,但是很少有人能了解这里面的原理,小编这就把自己的经验和大家分享一下,给新手朋友提供借鉴!大牛请绕过~~~ 0X01:首先在终端输入命令:apt-get install linux-headers-$(uname -r)来查看是否有内核头文件;这也是安装v

2016-09-29 18:32:15 365

原创 kali 安装中文输入法

1.打开软件源 leafpad /etc/apt/sources.list 2.添加软件源 一般不用官网的软件源,所以把官网软件源注释掉 添加:##中科大源deb http://mirrors.ustc.edu.cn/kali sana main non-free contrib deb-src http://mirrors.ustc.e

2016-09-22 20:43:55 1161

原创 局域网内arp攻击

原理: 攻击者主动发送ARP报文,发送者的MAC地址为攻击者主机的MAC地址,发送者的IP地址为被攻击主机的IP地址。通过不断发送这些伪造的ARP报文,让局域网上所有的主机和网关ARP表,其对应的MAC地址均为攻击者的MAC地址,这样所有的网络流量都会发送给攻击者主机。由于ARP欺骗攻击导致了主机和网关的ARP表的不正确,这种情况我们也称为ARP中毒。 根据ARP欺

2016-09-21 16:48:18 671

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除