自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cleverbegin的专栏

Java JSP R Linux

  • 博客(70)
  • 资源 (8)
  • 收藏
  • 关注

原创 spark-shell 高级操作

一、系统环境Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 1.2.0 /_/Using Scala version 2.10.4 (Java HotSpot(

2015-02-03 13:05:08 816

原创 加载类型库/DLL 时出错。 (Exception from HRESULT: 0x80029C4A (TYPE_E_CANTLOADLIBRARY)

由于项目过程中需要提交数据库开发文档,数据库已经全部设计好了,但是不想手工去复制粘贴到word,所以就找努力寻找数据库文档生成工具,最后找到了一个免费的软件叫:动软代码生成器。这个动软代码生成器是用c#写的,与微软是无缝兼容的,但是我没有装office,于是就下载了office,然后用360卸载了wps。接下来使用动软代码生成器连接数据库,生成数据库文档,结果报了一下错误:System

2014-12-13 14:43:38 25377

转载 R语言数据结构重组(空闲时间一定要好好看看)

一、通过重新构建数据进行整形数据整形最直接的思路就把数据全部向量化,然后按要求用向量构建其他类型的数据。这样是不是会产生大量的中间变量、占用大量内存?没错。R语言的任何函数(包括赋值)操作都会有同样的问题,因为R函数的参数传递方式是传值不传址,变量不可能原地址修改后再放回原地址。矩阵和多维数组的向量化有直接的类型转换函数: as.vector,向量化后的结果顺序是先列后行再其他:> (

2014-11-30 16:20:06 5626

转载 R语言中使用支持向量机

R语言中使用支持向量机Including the SVM packageThe SVM package is in a package called "e1071." Firt you need to set the path to include the directory where the e1071 package is. For example, if e1071 is in

2014-11-30 15:57:06 3849

原创 R语言学习笔记——日期时间处理

一、在利用R语言实际工作中,我们经常需要将字符串转换成时间,或者将时间转化成字符串,R语言和其他语言一样,你要告诉它如何转化?也就是告诉它format,它就可以正常的转化,但是在实际中,我碰到了一下几个很难注意的问题,先总结如下:计算机如何理解日期:日期格式(也就是Date)表示为自1970年1月1日相对的数量,较1970-01-01更早的日期表示负值。(大部分语言都是这么处理的) 大

2014-11-14 16:02:48 8683 1

原创 R语言机器学习笔记——垃圾邮件分类

rm(list = ls())if(require(tm) == FALSE) {  install.packages("tm")  library(tm)}if(require(ggplot2) == FALSE) {  install.packages("ggplot2")  library(ggplot2)}spam.path spam2_pa

2014-11-11 18:31:30 6094 3

转载 Python入门

假设我们有这么一项任务:简单测试局域网中的电脑是否连通.这些电脑的ip范围从192.168.0.101到192.168.0.200.       思路:用shell编程.(Linux通常是bash而Windows是批处理脚本).例如,在Windows上用ping ip 的命令依次测试各个机器并得到控制台输出.由于ping通的时候控制台文本通常是"Reply from ... " 而不通

2014-10-24 10:36:44 679

原创 从一道面试题目获得的心得体会

想问题要从简单 到复杂 找到规律

2014-09-24 19:14:56 797

原创 WIN7下面如何安装RMySQL

一、系统简介

2014-09-12 10:22:56 2372 1

原创 commons-cli jar包的使用

一、简介import org.apache.commons.cli.CommandLine;import org.apache.commons.cli.CommandLineParser;import org.apache.commons.cli.GnuParser;import org.apache.commons.cli.HelpFormatter;import org.apach

2014-08-27 09:58:38 8797

原创 XulRunner的下载地址

http://ftp.mozilla.org/pub/mozilla.org/xulrunner/releases/10.0.4esr/runtimes/

2014-08-21 20:44:40 6105 1

原创 CountDownLatch的介绍和使用

1、类介绍java.util.concurrent类 CountDownLatchjava.lang.Objectjava.util.concurrent.CountDownLatch

2014-08-14 18:13:31 725

转载 BDB 封装

/* *  This file is part of the Heritrix web crawler (crawler.archive.org). * *  Licensed to the Internet Archive (IA) by one or more individual  *  contributors.  * *  The IA licenses this

2014-07-30 10:34:25 883

转载 java正则表达式

众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。 大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配

2014-07-27 14:52:39 664

原创 Heritrix3 控制爬取链接

package org.wisdom.heritrix.plugins.frontier;/* * This file is part of the Heritrix web crawler (crawler.archive.org). * * Licensed to the Internet Archive (IA) by one or more individual * co

2014-07-24 09:34:06 1092

转载 反爬虫技术

因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十

2014-07-19 14:13:18 8177 1

转载 gcc编译含math.h程序的奇怪现象(并非未添加-lm)

gcc编译含math.h程序的奇怪现象(并非未添加-lm)      Powered by lihux @ ustc        最近学习linux下编程时发现一个小问题:  一个最简单的main.c程序  #include  #include  int main()  {  double a = 4;  sqrt(a);  return 0;  }

2014-05-11 16:45:07 5830 1

转载 BM算法

O了O了!我现特想说:一个人Boyer-Moore都敢闹明白,他还有什么不敢的呢^_^ 经典单模式匹配算法:KMP、BM;经典多模式匹配算法:AC、Wu-Manber。貌似实用中,KMP跟C库strstr()效率相当,而BM能快上3x-5x。于是小女不才花了小天的功夫来研究这个BM算法。BM如何快速匹配模式?它怎么跳跃地?我今儿一定要把大家伙儿讲明白了,讲不明白您佬跟帖,我买单,包教包会。

2014-05-10 20:36:42 930

原创 Maven、Spring 学习起步

Spring的思想:第一种境界():

2014-04-29 17:00:50 835

转载 git与github在ubuntu下的使用

git与github在ubuntu下的使用最近开始使用git对kohana3的文档做一些补充的工作,使用了git 和 github ,从了解到使用,还是有一点距离,下面是总结的一些方法。1、Git的安装我使用了ubuntu 10.04 ,默认情况下,ubuntu 中并没有安装,所以首先需要在系统中进行 git 的安装。sudo apt-get install git

2014-04-12 15:47:45 775

转载 heritrix1.14升级到3.1

由于本人正在准备将heritrix1.14升级到3.1 ,觉得这篇文章挺有用的,于是就cp一下,记录下来,非本人所原创,下面是原创的文章:  网上已经有几篇Heritrix 1.14版本的Eclipse搭建的文章,说的比较详细。本人下载了Heritrix 3.1,该版本相对Heritrix 1.14版本变化已经较大,在研究Heritrix零星的几个文档以后终于把环境搭建成功了,并把

2014-04-12 15:40:18 990

原创 R语言学习笔记 —— table 函数的应用

一、table 函数对应的就是统计学中的列

2014-04-12 14:59:55 106952 1

原创 R语言学习笔记 —— 数据的分组处理

一、实现数据的分组求和

2014-04-12 11:12:31 56589 1

转载 安装StatTransfer过程的错误libstdc++.so.5解决

解决libstdc++.so.5的帖子:转自:http://hi.baidu.com/jch109/item/7f11c9a4605bb0278919d3e1Ubuntusudo apt-get install libstdc++5 末果,说找不到这个包,但是有 libstdc++6选择手动安装:1. 下载安装包: wget -c http://free.nchc.org.

2014-04-06 15:02:33 1503

原创 R语言学习笔记——R语言数据处理基本操作

#############操纵日期和缺失值###########################不要说别人的事情,做好自己的事情###################author:clebeg 2014/04/08###########实验数据leadership <- data.frame(manager = numeric(0), date =

2014-04-06 11:01:10 2580

原创 R语言学习笔记——R语言绘图

###############test1############################################# graph test 2014.04.03 #############加入mtcars对象到对象搜索范围之内 其实更加推荐使用的是 with#用attach如果对象中出现名字重复的,将以当前内存中的名字作为最优的attach(mtcars)#查看对象的结构

2014-04-05 11:08:14 3390

转载 线性规划

glpk                                                                       http://www.gnu.org/software/glpk/glpk.html                                 The GLPK package includes the following main

2014-03-31 10:32:25 1777

转载 解决 Ubuntu 下风扇一直高速旋转的方法

刚接触Linux时就是用的Ubuntu,很喜欢它。但是每次进入ubuntu后,即使我什么都不做,笔记本的风扇都会高速的旋转,发出“呼呼”的响声(唉,Ubuntu的缺陷啊)。起初我是没注意到的,但是后来总会在不经意间听到电脑高速运转的响声。影响心情不说,这样也会对电脑造成很大的负担,谁可以在不休息的情况下一直工作,那不累趴下才怪。所以就到网上找了好多资料,好像解决方法还有好多种。

2014-03-30 20:14:24 3485

转载 Heritrix —— eclipse 安装与配置

1.Heritrix 下载    Heritrix使用的是1.14.4(2010-5-10 发布),从SourceForge(http://sourceforge.net/projects/archive-crawler/files/)上下载。每个版本都有四个压缩包,两个 .tar.gz 包用于 Linux 下,.zip 用于 windows 下。其中heritrix-1.14.4.zip

2014-03-29 16:19:54 910

原创 爬虫 Heritrix 学习笔记 —— Heritrix安装与简单配置

Heritrix安装与简单配置                由于项目需要,需要利用爬虫在互联网上爬取数据,在 Nutch 与 Heritrix 之间选择了 Heritrix,前段时间自己写了一个爬虫,效率太低了,不过对于爬虫的基本情况已经心中有算,现在利用别人写的爬虫,而且是经过考验的,自然效率会比自己写的高很多。至于 Nutch 与 Heritrix 的比较就暂不讨论了。第

2014-03-29 15:46:16 1628

原创 ssh传递本地文件到服务器

scp works/guangyao/rworkplace/.RData [email protected]:/home/clebeg/桌面/R/rworkplace

2014-03-23 20:41:39 889

原创 R语言与多元统计分析 —— 多元正态分布

1、如何用R语言画二元正态分布的曲面图形下面主要用两种技术来实现:注意:z 的列维是 y 的长度,行维是 x 的长度(即 z 包含每一种可能的 (x, y) 点 的值)        第一种使用 persp(x, y, z)函数:下面看代码fn = function(x, y) { sigma <- matrix(c(20,0,0,20), c(2,2)) u <- c

2014-03-20 16:27:53 23785 3

原创 算法学习笔记 —— MergeSort 的一种循环实现

public class MergeSort { public static void main(String[] args) { int[] dealArray = new int[]{11, 22, 5, 3, 6, 1, 10, 7, 8}; mergeSort(dealArray, 9);//注意此处传递的是对象 for(int i = 0; i < 9; i++)

2014-03-18 23:03:19 738

原创 RMySQL学习笔记——RMySQL基本操作

RMySQL基本操作:下面列出 RMySQL 的基本操作,基本上都会列出相应的SQL语句:注意以 “mysql> ” 开头的就是对应的SQL语句1、连接数据库> con <- dbConnect(MySQL(), user="root", password="", dbname="test", host="localhost.localdomain")//相当与SQL

2014-03-14 17:56:46 1063

原创 Chrome插件开发学习——开发实战

一、为了获取用户点击时候的信息,用 js 很容易实现 content.js (注意必须写成单独的js页而且需要在manifest.json 里面注册)1、如何注册呢?任意一个模式匹配本质上都是一个以认可的协议(例如:http, https, file, ftp 或者chrome-extension)开头的URL,只是URL你可以包含"*"字符.这里有一种特殊的模式匹配,它表示所有已认

2014-03-14 16:34:43 1096

原创 Chrome插件开发学习——开发进阶

一、应用场景描述?最近在做爬虫,想要对爬到的网页进行分析!最要做两块分析:第一:链接分析 链接分析主要是如下流程step1:分析是否从某个页面中提取链接(列表页需要提取链接,内容页不需要提取)step2:提取某个范围内的链接(比如说正文链接 此时需要匹配模板 比如是否循环匹配)step3:过滤某些链接 因为模板不可能做到过滤出的东西完全符合我们的需求,所以还需要经过一定的删选比如:链接

2014-03-14 16:34:41 725

原创 Chrome插件开发学习——开发入门

一、如何快速开发一个 Chrome 插件,根据 Chrome 官方网站上面的教程可以快速开发一个小插件Chrome官方开发文档地址:http://code.google.com/chrome/extensions/dev/devguide.html具体对其中每一个步骤的理解:第一步:新建一个文件夹,准备一个图标,建议128×128大小的。然后创建一个文件,命名为manifest.

2014-03-14 16:34:39 814

原创 Java学习笔记——相对路径研究

一、为什么需要研究相对路径?在写程序的时候,很难避免不去写配置信息,如何才能保证配置信息,在你的java程序移植到其他平台上面是,还是可以正确读取你写的配置信息呢?如果你使用绝对路径,那你就惨了,万一别人的电脑连C盘都没有,是linux主机怎么办?这个时候就要学会使用相对路径二、java相对路径的特点java相对路径是指相对于 java 文件的路径,而且提倡使用 / 因为java虚拟机会

2014-03-14 16:34:37 649

原创 solr查询——根据时间范围查询

一、今天为了满足系统对时间范围查询的需求,开始研究怎么用 solr 对时间建立索引查看 solr 示例 schema.xml ,发现里面有 date 类型,但是 date类型到底怎么用呢?于是自己就写了一个测试代码。二、测试过程分析第一次测试:首先指望 solr可以识别所有的时间格式的字符串,想想也是可笑的?试了一下,果然报错,你随便给它一个时间(比如:2013-04-25),运行时报

2014-03-14 16:34:34 15667

原创 怎么在windows下面使用git

tortoise 乌龟是一个系列,帮助用户使用 git 和 svn, 先下载 git 的客服端,然后下载 tortoisegit就可以在windows 下面用图形方式操作git了,但是学习在linux 下面用命令行使用git 也是必须的技能

2014-03-14 16:34:32 609

R语言机器学习——第三章的垃圾邮件分类的数据

这是英文版:Machine Learning for Hackers 中文版:R语言机器学习 第三章垃圾邮件分类的数据资源!其中我的博客会持续跟进学习!

2014-11-11

xulrunner-10.0.4esr.en-US.win32.zip

windows 32 jdk xulrunner10 DJNativeSwing

2014-08-21

heritrix3种子载入方式

heritrix3 灵活载入种子的方式进行了详细的介绍,通过学习可以方便的想heritrix3 载入种子!

2014-08-13

heritrix3淘宝搜索食品店首页连接提取

本文通过一个淘宝信息提取的实例来说明怎么扩展heritrix3

2014-08-13

扩展Heritrix3指定内容提取.pdf

该文档详细介绍了如何利用heritrix3进行网页内容提取,其中内容提取模块可以自己修改,接口已经留好,具有很强的扩展性!

2014-08-13

扩展Heritrix3指定链接爬取

在网上找了许多关于Heritrix的资源,但是关于新版本heritrix3的资源很少,最近由于项目需要,认真读了heritrix的源码,扩展了Heritrix3指定链接提取,内容详细,可以在实际中使用。

2014-08-01

WEKA完整中文教程.rar

这是开源统计软件WEKA的中文文档,weka在国外已经成为很好的教程了

2014-07-23

基于 spring 架构用 Maven 构建的用户登录模块

本程序实现了 ”spring3 就是这么简单“ 一书中第一章的例子,但是不用连接数据库 可以直接用maven jetty:run 运行, 登录方式: url 127.0.0.1:8088/chapter1 用户名:admin 密码:123456

2014-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除