学无止境-程序猿-CSDN博客

原创 webspider,网页爬虫程序全程一体化操作，自动写爬虫代码，自动部署分布式，不经历代码过程,让每个人都能玩爬虫

Web爬虫，也叫Webspiders-online 全程web界面操作的爬虫系统，预设定全程一体化操作，使简单的爬虫直接放置链接自动提取，然后复杂度评级高的，要用到专业知识，后期想做到全程web端创建爬虫，自动写入爬虫规则代码，然后界面点击直接部署分布式到服务器上，不经历代码过程，目前在写入规则！遇到问题各种验证码不同，目前的想法是直接跳过使用代理ip，后期看看能不能加个验...

2019-04-06 19:44:44 3118 5

原创 sql注入学习，运维很闲，心理不舒服，给他找找或干，sql注入的简单手法

不管用什么语言编写的Web 应用，它们都用一个共同点，具有交互性并且多数是数据库驱动。在网络中，数据库驱动的Web 应用随处可见，由此而存在的SQL 注入是影响企业运营且最具破坏性的漏洞之一，这里我想问，我们真的了解SQL 注入吗？看完本篇文章希望能让你更加深刻的认识SQL 注入。注入攻击原理及自己编写注入点1.1、什么是SQL?SQL 是一门ANSI 的标准计算机语言，用来访问和操作...

2019-06-17 10:57:25 437

原创 http盲攻击，hacker攻击入门，白帽反思，黑帽思想，运维忙成狗

攻方：传统漏洞越来越难挖大型企业暴露的漏洞越来越少对于目标站点没有任何思路守方：我有WAF还是被黑了我不对公网开放还是被搞了我天天内部整改漏洞还是被通报漏洞1. HTTP 盲攻击是什么 2. 为什么需要HTTP 盲攻击 3. HTTP 盲攻击可能发生的场景 4. HTTP盲攻击的总体利用思路与检测实现思路HTTP 盲攻击是什么Blind A...

2019-06-16 17:06:33 1109

原创刷单之骗人先交钱QQ，如何从qq，找到他的ip

与好友在网络上相互传输资料时，有时先要知道对方计算机的IP地址，才能与对方建立信息传输通道;那么对方的IP地址该如何搜查得到呢?这样的问题你也许会嗤之以鼻，的确，查询对方计算机的IP地址，实在简单得不值得一提;可是，要让你列举出多种IP地址搜查方法时，你可能就感到勉为其难了。下面，本文就对如何快速、准确地搜查出对方好友的计算机IP地址，提出如下几种方法，相信能对大家有所帮助!1、邮件查询法...

2019-06-16 15:15:12 2556

原创计算机简单入门

蓝屏代码0X0000000操作完成0X0000001不正确的函数0X0000002系统找不到指定的文件0X0000003系统找不到指定的路径0X0000004系统无法打开文件0X0000005拒绝存取0X0000006无效的代码0X0000007内存控制模块已损坏0X0000008内存空间不足，无法处理这个指令0X0000009内存控制模块位址无效0...

2019-06-16 13:39:32 459

原创电脑破解密码

一般小型的密码屏幕木马的破解方法方法一：在开机时，按下F8进入”带命令提示符的安全”模式输入”NET USER+用户名+123456/ADD”可把某用户的密码强行设置为”123456″。方法二：如用户忘记登入密码可按下列方法解决1.在计算机启动时按〔F8〕及选〔Safe Mode With Command Prompt〕2.选〔Administrator〕后便会跳出〔Co...

2019-06-16 13:26:41 643

原创 cmd命令提示符有哪些？

cmd命令提示符有哪些？对于想学DOD系统操作的朋友来说cmd命令提示符是不可或缺的。想成为电脑高手DOS系统也是必学的，下面绿茶小编为大家带来cmd命令提示符大全，希望对大家有所帮助。cmd命令提示符大全：winver---------检查Windows版本wmimgmt.msc----打开windows管理体系结构(WMI)wupdmgr--------windo...

2019-06-16 13:08:04 693

转载 msfvenom简单命令

msfvenom命令行选项如下：Options: -p, --payload <payload> 指定需要使用的payload(攻击荷载)。如果需要使用自定义的payload，请使用'-'或者stdin指定 -l, --list [module_type] 列出指定模块的所有可用资源. 模块...

2019-06-16 01:16:47 654

原创渗透hacker入门知识，小白级

社工：社会工程学一种通过对受害者心理弱点、本能反应、好奇心、信任、贪婪等心理陷阱进行诸如欺骗、伤害等危害手段。单反：社工术语一个好友辅助申诉裸奔：社工术语不需要好友辅助申诉肉鸡：肉鸡也称傀儡机，是指可以被黑客远程控制的机器人肉：人肉，一般是指人肉搜索，通过匿名知情人提供数据的方式搜集信息谷歌黑客：Google hacking 使用搜索引擎，比如谷歌来定位因特网上的安全隐患...

2019-06-16 00:54:42 787

原创漏洞发掘技术，思路解析

漏洞发掘技术关键词：漏洞开发发掘找漏洞编程一、不同角度看安全漏洞的分类对一个特定程序的安全漏洞可以从多方面进行分类。1. 从用户群体分类：●大众类软件的漏洞。如Windows的漏洞、IE的漏洞等等。●专用软件的漏洞。如Oracle漏洞、Apache漏洞等...

2019-06-16 00:47:47 1155

WLAN技术出现之后，“安全”就成为始终伴随在“无线”这个词身边的影子，针对无线网络技术中涉及的安全认证加密协议的攻击与破解就层出不穷。现在，因特网上可能有数以百计，甚至以千计的文章介绍关于怎么攻击与破解WEP，但有多少人能够真正地成功攻破WEP的加密算法呢?以下介绍一些关于WEP加密手段的知识，以及就是菜鸟只要按照步骤操作也可成功破解WEP密钥的方法。当然最终的目的还是为了让大家做好安全设置对破...

2019-06-16 00:43:03 1579

原创心理强大

面对危险,心理强大也很重要,这绝不仅仅身体和智力上的博弈，同时也是一种心理的搏杀.事实上，重视人的心理背景和人与人之间的心理竞争，我们完全可以对人类一些看似奇怪的行为作出解释。比如，一个人会莫明其妙地以语言攻击另一个人，但被攻击的这个人并不认为自己得罪过他。事实上，他不知道，他的存在本身就是对攻击者的一种得罪。事实的真相是：被攻击者的存在方式与攻击者当年（或许是在学生时代）的存在方式一...

2019-06-16 00:32:42 282

原创黑客攻防---从零开始认识黑客，简单认知

一、黑客认知1.1-----认识黑客黑客是一类掌握超高计算机技术的人群。凭着掌握的知识，他们既可以从事保护计算机和保护网络安全的工作，又可以选择入侵他人计算机或者破坏网络，对于黑客而言，他们所做的事情总是带有一定目的的，也许是为了炫耀，也许是为了报复。1.2-----区别黑客与骇客黑客的原意是指那些精通操作系统和网络技术的人群，黑客所做的不是恶意破坏，他们是一群纵横于网...

2019-06-15 23:32:39 19393 8

原创指数显示这个样子还可以吧

2019-04-06 01:09:20 237

翻译状态码认识

HTTP状态码(HTTP Status Code) 是当我们访问网页服务器，服务器做出相应的状态的3位数的数字代码。主要包括“1xx”（消息）、“2xx”（成功）、“3xx”（重定向）、“4xx”（请求错误）和“5xx”或“6xx”（服务器错误）五种不同类型。比较常见的状态码有：HTTP: Status 200 – 服务器成功返回网页HTTP: Status 404 – 请求的网页...

2019-03-25 13:09:58 453

翻译数据库的数据优化，加速

处理百万级以上的数据提高查询速度的方法：1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order_by 涉及的列上建立索引。3.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select i...

2019-03-22 16:41:03 627

原创爬虫入门学习案例--适合新手入门

常见的爬虫新手入门，知道什么使网页源代码，网页响应码，真正的url地址信息，下载图片，视频，网页到本地

2019-03-20 20:31:54 1362

原创 scrapy爬取某京的简单爬虫，无仿封操作，只是简单爬取信息

import scrapyimport refrom JingDong.items import JingDongItemfrom scrapy import Request#---------------------------------------------------------------------------class JdSpider(scrapy.Spider):...

2019-03-15 15:50:30 272

原创 24.python-爬虫的基础认知，python代码不认中文

import urllib.requestimport urllib.parseimport string#导入相应的包url = 'http://www.baidu.com/s?wd='#相应的网址链接name = "美女"#想要添加的元素base_url = url + name#拼接对应的urlprint(base_url)#打印拼接后的链接new_url = u...

2019-03-15 00:13:29 213

原创 23.python-爬虫的基础认知，Condition锁机制，小例子

Condition锁机制#-------------------------------------------------------------------------import threadingimport timeimport randomgMoney = 1000gTimesT = 10gTimes = 0gCondition= threading.Conditio...

2019-03-13 21:54:10 183

原创 22.python-爬虫的基础认知，Lock锁机制

lock锁，但是有个问题是，每个线程运行时，每次都得重新上锁和解锁，会比较耗费cpu资源。import threadingimport timeimport randomgMoney = 1000gTimesT = 10gTimes = 0gLock = threading.Lock()class Producer(threading.Thread): def run...

2019-03-13 18:36:44 486

原创 21.python-爬虫的基础认知，多线程小例子

多线程爬虫的方便了，但是只要问题是数据可以因为运行速度问题导致数据紊乱，所以要加上锁机制，改变了全局变量的多线程要加上锁。1.普通的执行方式，运行共计6秒import timedef coding(): for x in range(3): print('正在写代码%s'%x) time.sleep(1)def drawing():...

2019-03-13 17:51:51 186

原创 20.python-爬虫的基础认知，urllib中的get和post请求

总之访问时，差不多是一样的，只是多了些参数，访问会更安全些from urllib import request,parse# url = 'http://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='# res = request.urlopen(url)# print(res...

2019-03-13 16:46:18 190

原创 19.python-爬虫的基础认知，爬虫中的urllib库简单的使用

from urllib import request#1.urlopen 访问网页#--------------------------------------------------------------resp = request.urlopen('http://www.baidu.com')# print(resp.read(100)) ...

2019-03-13 14:45:19 149

翻译 18.python-爬虫的基础认知，面向对象

面向过程 VS 面向对象面向过程的程序设计的核心是过程（流水线式思维），过程即解决问题的步骤，面向过程的设计就好比精心设计好一条流水线，考虑周全什么时候处理什么东西。优点是：极大的降低了写程序的复杂度，只需要顺着要执行的步骤，堆叠代码即可。缺点是：一套流水线或者流程就是用来解决一个问题，代码牵一发而动全身。应用场景：一旦完成基本很少改变的场景，著名的例子有Linux內核，gi...

2019-02-02 15:59:47 659 3

原创 17.python-爬虫的基础认知，数据结构

Python中的数据结构这里总结一下Python中的内置数据结构（Built-in Data Structure）:列表list、元组tuple、字典dict、集合set，涵盖的仅有部分重点，详细地去介绍每个知识点并未涉及。列表list# -*- coding: utf-8 -*-# @Time : 2019/1/22 0022 18:40# @Aut...

2019-02-02 15:30:23 315

原创 16.python-爬虫的基础认知，python变量与字符串的应用

定义变量什么是变量？在程序运行过程中，其值可以改变的量标识符(命令规范)只能由数字、字母、下划线组成不能以数字开头不能是系统关键字# 导入包import keyword# 打印所有关键字print(keyword.kwlist)命名原则尽量做到见名知意尽量用英文，实在不行全拼推荐使用全小写加下划线的方式，如：user_name变量赋值...

2019-02-02 15:25:21 421

原创 11.python-爬虫的基础认知，网络的http协议和https协议的区别

HTTPS和HTTP的区别主要如下：1、https协议需要到ca申请证书，一般免费证书较少，因而需要一定费用。2、http是超文本传输协议，信息是明文传输，https则是具有安全性的ssl加密传输协议。3、http和https使用的是完全不同的连接方式，用的端口也不一样，前者是80，后者是443。4、http的连接很简单，是无状态的；HTTPS协议是由SSL+HTTP协议构建的可进...

2019-02-01 19:20:36 243

转载 10.python-爬虫的基础认知，网络http协议是什么？

http详解当今web程序的开发技术真是百家争鸣，ASP.NET, PHP, JSP，Perl, AJAX 等等。无论Web技术在未来如何发展，理解Web程序之间通信的基本协议相当重要, 因为它让我们理解了Web应用程序的内部工作. 本文将对HTTP协议进行详细的实例讲解，内容较多，希望大家耐心看。也希望对大家的开发工作或者测试工作有所帮助。什么是HTTP协议协议是指...

2019-02-01 19:16:09 362

转载 9.python-爬虫的基础认知，虚拟环境的设置与操作

python虚拟环境的操作：virtualenv和virtualenvwrapper本文使用virtualenvwrapper，还有就是现在的大多数编译器有选择不同python版本的功能，可以都安装，在按照程序自主设置版本。安装linux和mac下安装pip install virutalenv virtualenvwrapperwindows下安装pip inst...

2019-02-01 17:51:14 302

翻译 7.python-爬虫的基础认知，python2和3版本的区别？

几乎所有的python2程序都需要一些修改才能正常的运行在python3的环境下。为了简化这个转换过程，Python3自带了一个2to3的实用脚本.这个脚本会将python2程序源文件作为输入，然后自动转换到python３．但并不是所有内容都可以自动转换。print语句python2中print是一个语句，不论想输出什么，直接放到print关键字后面即可。python3...

2019-02-01 17:14:51 637

原创 6.python-爬虫的基础认知，为什么使用python写爬虫？

用什么语言写爬虫？C，C++。高效率，快速，适合通用搜索引擎做全网爬取。缺点，开发慢，写起来又臭又长，例如：天网搜索源代码。脚本语言：Perl, Python, Java, Ruby。简单，易学，良好的文本处理能方便网页内容的细致提取，但效率往往不高，适合对少量网站的聚焦爬取C#？（貌似信息管理的人比较喜欢的语言）为什么最终选择Python？傻白甜，易上手跨...

2019-02-01 15:39:41 720

原创 5.python-爬虫的基础认知，爬虫的目标分析，搜索算法

抓取目标分类来自：百度百科抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。 ...

2019-02-01 15:28:20 911

原创 4.python-爬虫的基础认知，爬虫的几大分类？

分类来自：百度百科网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的 ...

2019-02-01 14:21:56 2217

原创 3.python-爬虫的基础认知，什么是聚焦爬虫？（以后大部分接触的都是聚焦爬虫）

聚焦爬虫来自：百度百科网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的...

2019-02-01 14:09:48 1183

原创 1.python-爬虫的基础认知（爬虫的实际案例）

爬虫的实际例子： 1.百度，谷歌（搜索引擎）， 2.新闻网(各种资讯网站)， 3.各种购物助手（比价程序） 4.数据分析（数据冰山知乎） 5.抢票软件什么是网络爬虫？来自：百度百科网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另...

2019-02-01 13:42:15 597

原创 requessts库,fake_useragent库，lxml库爬虫中国天气网最低气温，全国气温

1：html5lib，lxml , html.parser的比较使用2：pyecharts图形制作库,制作可视化图形数据3：map函数的使用4：lambda的使用上述小点要学习。。。。。。# -*- coding: utf-8 -*-# @Time : 2019/1/26 0026 17:08# @Author : huangtao# @Site : #...

2019-01-30 19:57:33 342

原创爬虫案例：requests库,fake_useragent库,lxml库爬取电影天堂，一个大型的分类，可以向上进阶为全站爬虫

遇到的问题：1. detail_urls = html.xpath("//table[@class='tbspan']//a/@href")，得到的url，为半成品，需要后期补充。2.try: 。。。。。 except IndexError: pass电影天堂有假的电影标题，就是只有标题，没有电影详细信息。3.("◎主　　演")以下信息为...

2019-01-26 00:28:07 855

原创爬虫框架scrapy的使用，模拟浏览器无界面形式selenium，获取随时更新的数据，保存数据库，爬取随时变化的网页，爬取金十网数据，MongoDB实现增量更新，简单的网络监控

获取金十数据网页，更新数据，增量获取其内容。环境：pycharm,mongoab,win7,python3.7链接：https://pan.baidu.com/s/1MpZM8XJoCxBlmsSzg2WY3w提取码：muqe增量获取，更新数据，有和数据中不一样的保存，一样的直接返回None,不使用数据库。import pymongofrom pymysql i...

2018-12-10 23:19:30 1520 4

原创 scrapy 爬取链家网信息，可改进全站进阶分布式

start_urls = ['https://bj.lianjia.com/ershoufang/pg{}/'.format(i) for i in range(1, 3)]，这个网站url可以放置列表，所以这里面可以放循环遍历的url，range(1,3),例子上只找2页数据，多个数据也行，看你们的情况，还有就是爬取的过多可能封ip，所以代理ip是不可避免的。代码链接：https://...

2018-12-06 00:02:35 929

空空如也

空空如也