自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (2)
  • 收藏
  • 关注

原创 数据流挖掘的例子

数据流挖掘有两种模型,一种是保存流的某个概要信息,使之足够回答某种期望的查询,另一种是维持一个滑动窗口。几个例子:数据抽样比如过去一个月中典型用户所提交的重复 查询的数目。在用户规模较大的时候,将用户hash到不同的桶中,当空间不足时,则丢弃一部分桶。流过滤比如垃圾邮件的过滤,采用布隆过滤的方法,创建一个位数组,初始化所有值为0,将合法的邮件映射到位

2014-01-25 16:12:57 1731

原创 分布式网页抓取

为了提高网络爬虫的性能,一般会采用分布式的抓取方式,本文主要就其中的网页查重问题进行简单的讨论。第一种:主备集中式控制的方式由一个主控节点控制网页的抓取,主控节点负责任务的分派,将各个slave机器上抓取结果网页内的链接进行汇总,查重,再进一步分派新的任务。主控节点上网页的查重可能是比较复杂的任务。第二种:多节点协作的方式将所有的网页地址进行hash,每个节点负责不同的hash范围

2014-01-14 11:45:25 1187

原创 文档的相似性和分类

如何求文档相似性?将文档生成k-shingle集合,或由k-shingle集合映射成更少量的桶编号;为了能在内存中装载k-shingle集合,将该集合生成长度为n的最小hash签名,即选择n个hash函数,分别将集合进行行变换,取每次变换后所得的最小hash共同构成一个签名矩阵;由于签名矩阵对应的文档数目比较大,再次采用hash来比较文档的相似性。基于LSH的技术,将签名矩阵行条化,分

2013-12-31 23:07:12 1021

原创 利用zookeeper管理集群

zookeeper主要用来做分布式协调服务,通过利用Ephemeral 和 Sequential特性可以很容易实现集群的管理。Ephememal 的路径在节点退出后自动失效Sequential 由zookeeper按照顺序分配路径名一主一备第一个节点为主节点,后一个节点监听前一个节点。一主多备主要是实现多备的选举。每个节点分别创建Ephemeral,Se

2013-12-16 22:52:27 717

原创 分布式系统介绍-PNUTS

PNUTS是Yahoo!的分布式数据库系统,支持地域上分布的大规模并发操作。它根据主键的范围区间或者其哈希值的范围区间将表拆分为表单元(Tablet),多个表单元存储在一个服务器上。一个表单元控制器根据服务器的负载情况,进行表单元的迁移和拆分。每条记录的数据都没有固定的模式(采用JSON格式的文本)组件区域(Region):一个区域包含全部表的数据和相关组件。表单元控制器(

2013-11-01 01:14:26 2899

原创 并行处理库corunner项目介绍

试想,如果有一堆页面,存储在不同的机器上,现在有一个搜索任务,需要根据一个查询条件找到相关的页面,这时候你会怎么做呢?有几种做法,第一种是把页面拷贝到本地,在本地进行查找,但是页面比较多,拷贝就需要花费大量的时间。第二种,把查找的程序拷贝到各个机器,然后依次查找。这种做法具体又有很多种方式,如果你在linux上,比较擅长写脚本,你可能会用一个for循环,依次拷贝文件到远程的机器并运行查找的

2013-10-10 19:37:20 851

原创 系统集成-高可用连接模式

一般而言,为了保证服务器的高可用性,会采用集群的方式来处理客户端的请求。那么在集群中某台服务器不可用时,客户端通过什么方式重新连接到其他的服务器呢? 下面我就将分享几种常见的模式。1. 配置多IP模式描述:客户端配置所有的服务器IP,在一个连接不可用时,尝试其他服务器。应用:适合于服务器IP固定且对负载均衡要求不高的场景。在具体设计上,为了保证尽可能均衡负载,客户端一般会采用随

2013-08-18 16:00:48 1048

原创 源码研读-netty多线程模型

netty和mina都出自于同一个作者,所以netty和mina的多线程模型,除了一些细节方面,大体的模型基本是一样的。本文在分析源码的过程中,也会适当对这些细节做一个对比。(注:netty源码版本为netty-4.0.2.Final)1. 端口绑定         不同于mina,netty采用了一个线程池来监听不同的端口。 final ChannelFuture initAn

2013-08-12 00:10:05 1848

原创 源码研读-mina多线程模型

mina是目前很流行的一个网络应用框架,用以帮助用户构建高性能和高伸缩性的网络应用。称其为网络应用框架,主要是其极强的扩展性,支持包括http,ssh,ftp等在内的多种应用层协议。而它本身封装了底层的TCP, UDP等通信协议,使用也非常方便。本文的重点是分析源码,了解它的多线程模型。源码版本为apache-mina-2.0.7。为了有助于理解,先简单介绍一下mina的整体架构。如下图所示,

2013-08-11 10:15:42 1653

原创 JBPM 工作流 设计器

设计器升级到V1.01版,新增加画折线的功能并调整了原有功能请直接访问http://up.qzone.net.cn/flash13/20100302022631_wfdesigner_secure.swf 功能点:1.  重做,撤销2.  模型概览选择功能3.  源码查看功能4.  工具菜单动态展示5.  整个流程图按比例放大,缩小6.  单个模型放大缩小展示(

2010-03-02 12:43:00 738

转载 敏捷开发

     敏捷开发(agile development)是一种以人为核心、迭代、循序渐进的开发方法。在敏捷开发中,软件项目的构建被切分成多个子项目,各个子项目的成果都经过测试,具备集成和可运行的特征。简言之,就是把一个大项目分为多个相互联系,但也可独立运行的小项目,并分别完成,在此过程中软件一直处于可使用状态。      敏捷开发是全新理论吗?答案莫衷一是。细心的人们可以发现,敏捷开发其实借鉴

2008-01-12 19:59:00 850

转载 Oracle9i数据库设计指引全集

  1 数据库物理设计原则    1.1 数据库环境配置原则    1.1.1 操作系统环境:    对于中小型数据库系统,采用linux操作系统比较合适,对于数据库冗余要求负载均衡能力要求较高的系统,可以采用Oracle9i RAC的集群数据库的方法,集群节点数范围在2—64个。对于大型数据库系统,可以采用Sun Solaris SPARC 64位小型机系统或HP 9000 系列小型机系统。RA

2008-01-11 16:15:00 686

转载 数据库设计中的14个实用技巧

下述十四个技巧,是许多人在大量的数据库分析与设计实践中,逐步总结出来的。对于这些经验的运用,读者不能生帮硬套,死记硬背,而要消化理解,实事求是,灵活掌握。并逐步做到:在应用中发展,在发展中应用。  1. 原始单据与实体之间的关系  可以是一对一、一对多、多对多的关系。在一般情况下,它们是一对一的关系:即一张原始单据对应且只对应一个实体。在特殊情况下,它们可能是一对多或多对一的关系,即一张原

2008-01-11 16:04:00 425

转载 Oracle数据库设计开发阶段性能优化策略

摘 要 通过对Oracle 数据库系统物理结构和逻辑结构的分析,阐述了在Oralce数据库设计开发阶段性能优化的一些策略和方法。   关键词 Oracle 数据库 性能优化 策略  引言  Oracle是目前使用最为广泛的大型数据库管理系统,提高Oracle数据库系统的运行效率,是整个计算机信息系统高效运转的前提和保证。影响Oracle数据库应用系统性能的因素很多,既有软件方面的因

2008-01-11 16:01:00 523

转载 RUP

 RUP(Rational Unified Process,统一软件开发过程,统一软件过程)是一个面向对象且基于网络的程序开发方法论。根据Rational(Rational Rose和统一建模语言的开发者)的说法,好像一个在线的指导者,它可以为所有方面和层次的程序开发提供指导方针,模版以及事例支持。 RUP和类似的产品--例如面向对象的软件过程(OOSP),以及OPEN Process都是理解性的

2008-01-07 11:50:00 441

转载 Java 5.0多线程编程

Java自1995年面世以来得到了广泛得一个运用,但是对多线程编程的支持Java很长时间一直停留在初级阶段。在Java 5.0之前Java里的多线程编程主要是通过Thread类,Runnable接口,Object对象中的wait()、 notify()、 notifyAll()等方法和synchronized关键词来实现的。这些工具虽然能在大多数情况下解决对共享资源的管理和线程间的调度,但存在以下

2007-12-29 18:55:00 762

原创 j2ee下的结构模式

客户端对远程对象运用一个【proxy】,远程对象的各个服务可以用一个【facede】,为了强化某个服务的功能,可以用一个【decorator】,为了能调用另外一个接口的服务,需要用到【adapter】,各个服务可以共享一些组件【flyweight】 ,为了统一调用一系列的组件,可以运用【composite】,dao中分离具体的实现,用到了【bridge】

2007-12-24 23:11:00 436

原创 jms事务aop配置

      jms 事务管理 -->    bean id="jmsTransactionManager" class="org.springframework.jms.connection.JmsTransactionManager">        property name="connectionFactory" ref="jmsQueueConnectionFactory">pro

2007-12-24 21:16:00 891

转载 跨站Script攻击和防范

第一部分:跨站Script攻击每当我们想到黑客的时候,黑客往往是这样一幅画像:一个孤独的人,悄悄进入别人的服务器中,进行破坏或者窃取别人的秘密资料。也许他会更改我们的主页,甚者会窃取客户的信用卡号和密码。另外,黑客还会攻击访问我们网站的客户。与此同时,我们的服务器也成了他的帮凶。微软称这种攻击为“跨站script”攻击。而这种攻击大多数都发生在网站动态产生网页的时侯,但黑客的目标并不是你的网站,而

2007-12-23 01:51:00 647

原创 acegi配置

xml version="1.0" encoding="UTF-8"?>DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.org/dtd/spring-beans.dtd">beans>     filter chain -->    bean id="filterChainProxy" cla

2007-12-22 21:50:00 929

原创 页面模板替换(json)

用json数据替换模板中的标志返回一个String。var Render=...{    rend:function(template, V)...{        V=V.constructor==Array?V:[V];        var r="";        for(var i in V)...{            r+=this.rendElement(template

2007-12-22 21:15:00 873

git操作指南

git操作指南,常用的操作命令,参考手册

2015-01-18

Linux实用培训学习教程1.0(最终版)

linux学习教程,概括了linux中常用的一些技巧

2008-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除