- 博客(17)
- 资源 (4)
- 收藏
- 关注
原创 centos7 yum安装 tesseract4.1
centos7 yum安装 tesseract4.1官网大法好,其他方法需要装好多依赖,还没安装成功。。。yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/sudo rpm --import https://build.ope...
2020-02-04 18:04:56 1329
原创 并发 防止 重复提交唯一数据
方法一:应用在数据库上, 保证用户名这个字段加上非重复约束的就可以了,真是出现重复了,就把这个抛出成异常,给Java程序判断吧。
2017-05-03 11:36:13 2702
转载 session性能问题
注意性能和可伸缩性的概念区别: 什么是性能问题?如果你的系统对于一个用户访问还很慢,那就是性能问题; 什么是可伸缩性问题?如果你的系统对一个用户来说是快的,但是在高访问量下就慢了。 在单机(JVM)环境下性能不会受影响, 如果你的业务访问量比较大, 需要集群环境/分布式时, session复制会导致网络风暴, 也就是说依赖session会使得应用un-scalable; 具
2016-08-18 13:20:51 908
转载 js代理模式-代理事件
var delegate = function(client, clientMethod) { return function() { return clientMethod.apply(client, arguments); } } var ClassA = function() { var _co
2016-08-15 11:05:35 382
转载 jQuery观察者模式的扩展方法
<script src="http://libs.baidu.com/jquery/1.9.1/jquery.min.js"></script><script type="text/javascript"> $(function () { $.getJSON('data.json', function (results) { $.publish('app
2016-08-15 01:10:16 317
转载 jQuery $.each用法
通过它,你可以遍历对象、数组的属性值并进行处理。使用说明each函数根据参数的类型实现的效果不完全一致:1、遍历对象(有附加参数)$.each(Object, function(p1, p2) { this; //这里的this指向每次遍历中Object的当前属性值 p1; p2; //访问附加参数}, [‘参数1’, ‘参数2’]);2、遍历数组(有附件参数)$.each(A
2016-08-15 01:01:20 236
转载 js闭包解释
闭包的两个特点:1、作为一个函数变量的一个引用 - 当函数返回时,其处于激活状态。 2、一个闭包就是当一个函数返回时,一个没有释放资源的栈区。其实上面两点可以合成一点,就是闭包函数返回时,该函数内部变量处于激活状态,函数所在栈区依然保留.我们所熟知的主流语言,像C,java等,在函数内部只要执行了return,函数就会返回结果,然后内存中删除该函数所在的区域.生命周期也就停止了.一般的js函数也是
2016-08-12 10:26:39 264
转载 Jquery之Bind方法--参数传递与接收的三种方法
//方法一、event.datafunction GetCode(event){ alert(event.data.foo);}$(document).ready(function(){ $("#summary").bind("click", {foo:'abc'} ,GetCode);});//方法二、函数句柄$("#summary").bind("click", f
2016-07-09 11:36:00 707
转载 MAC JDK版本切换
通过命令’jdk6′, ‘jdk7′,’jdk8′轻松切换到对应的Java版本:1.首先安装所有的JDk: * Mac自带了的JDK6,安装在目录:/System/Library/Java/JavaVirtualMachines/1.6.0.jdk/下。 * JDK7,JDK8则需要自己到Oracle官网下载安装对应的版本。自己安装的JDK默认路径为:/Library/Java/JavaVirt
2016-06-21 00:15:38 362
原创 14_抓取过程中的常见问题2—cookie的处理
登陆的原理会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。web中的身份识别Cookie通过在客户端记录信息确定用户身份, Cookie实际上是一小段的文本信息。客户端请求服务器,如果服务器需要记录该用户状态,就使用response向客户端浏览器颁发一个Cookie。客户端浏览器会把Cookie保存起来。当浏览器再请求
2016-06-01 18:15:07 527
原创 11_实用技巧1—多级页面的抓取技巧
需求分析:目标网站:天猫商城;抓取内容: 天猫商城销量前60的商品的情况(商品价格、商品名称、商品URL)、店铺的情况(店铺名称、店铺URL、公司名称、公司地址)存储格式:excel表格项目实施:代码解读Item编写spider编写setting设置总结:要求掌握:怎样在spider的不同parse函数中传递数据
2016-06-01 18:05:46 438
原创 10 scrapy框架解读--深入理解爬虫原理
scrapy框架结构图Scrapy Engine: 负责组件之间数据的流转,当某个动作发生时触发事件Scheduler: 接收requests,并把他们入队,以便后续的调度Downloader: 负责抓取网页,并传送给引擎,之后抓取结果将传给spiderSpiders: 用户编写的可定制化的部分,负责解析response,产生items和URLItem Pipeline: 负责处
2016-06-01 15:36:12 7357 1
原创 8.抓取西刺网站(代理ip网站)
需求分析使用单一ip抓取网页过程中,经常碰到IP被封的情况;现需要获取一批代理IP进行网页抓取;目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP进行爬取,以供日后使用;分析网站结构首页 各分类IP列表连接(国内高匿代理等)IP列表(多页)具体IP获取(查看页面源码-分析html结构编写scrapy) 注意: 匿名:若代理服务器是匿名时,当访问国外的网站时候,国
2016-06-01 10:34:43 5654
原创 6.基本概念解释3-scrapy中的重要对象
Request初始化参数 class scrapy.http.Request( url[ callback, method=’GET’, headers, body, cookies, meta, encoding=’utf-8’, priority=0, don’t_filter=False,
2016-05-29 14:22:09 542
原创 5.基本概念介绍-scrapy的重要组件
Spider基本介绍: 概念:是一个类,它定义了怎样爬取网站,包括怎样跟踪链接、怎样提取数据;循环执行流程: 1. 通过初始的url产生request 2. 解析response 3. 使用selector 4. 存储到Item基类(scrapy.Spider)介绍: 属性: name:spider的名称,要求唯一;allowed_domains
2016-05-29 13:48:49 1128
原创 4. 基本概念介绍1-scrapy命令行工具(常用)
1、scrapy –help 查看帮助信息 2、scrapy –version 查看scrapy版本 3、scrapy –version -v 查看scrapy中各个依赖主键的版本 4、scrapy startproject projectName 创建工程 5、scrapy genspider spiderName websiteName 创建spider并添加一些网站名称信息
2016-05-29 02:17:44 461
转载 欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-05-29 01:51:45 243
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人