肥萝卜使大力-CSDN博客

原创记一次R的可视化使用-生成城市各个景点的多边形图

项目中需要用到全国各个城市的景点坐标范围，需要人工审核各个景点的数据正确性和各个景点之间的距离分布。首先想到的就是使用R绘制每个景点的多边形区域。首先通过python，根据数据生成R绘图代码，当然这里的R绘图代码非常简单，利用原始数据拼接成R代码才是耗费工作量最大的工作，具体过程比较繁琐，此处略去。生成的R绘图代码示例如下：pdf("嘉兴.png");png(file="嘉兴

2014-06-16 15:50:35 2015

原创使用R完成字符串的子字符串频率统计

整理自统计之都论坛方法一使用strsplit函数a <- "aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg"b <- strsplit(as.character(a),"ag")length(b[[1]]) - 1 ##子字符串"ag"的出现个数方法二使用正则式函数a <- "aggcacgg

2014-04-29 23:05:19 19394

转载 R语言：常用统计检验方法

正态总体均值的假设检验t检验单个总体例一某种元件的寿命X（小时），服从正态分布，N（mu,sigma^2），其中mu,sigma^2均未知，16只元件的寿命如下：问是否有理由认为元件的平均寿命大于255小时。命令：X222, 362, 168, 250, 149, 260, 485, 170)t.test(X, alternative = "greater", m

2014-04-13 16:04:00 9387

原创使用R完成均值检验

t检验和Z检验都可用于均值检验。单样本均值检验当样本容量小于30时使用t检验，当样本容量大于30时使用Z检验Z检验使用例子:library(UsingR)x<-rnorm(50,0,5)simple.z.test(x,5)运行结果:[1] -2.947929 3.250022结果说明在置信度为95%的情况下总体的均值区间为[-2.947929 3.250022]

2014-04-13 15:17:07 17769

原创使用R完成正太分布检验

什么是正太分布检验？判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验。方法一概率密度曲线比较法看样本与正太分布概率密度曲线的拟合程度，R代码如下：norm_expression <- function(x) (1/sqrt(2*pi))*exp(-0.5*x^2)#curve(norm_expression, -4, 4, col="red") #标准正

2014-04-12 18:28:42 22497 1

原创使用R完成逻辑斯蒂回归分类

直接上代码，如下：data_sample <- iris[51:150,];m <- dim(data_sample)[1] #获取数据集记录条数val <- sample(m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) #抽样，选取三分之二的数据作为训练集。 iris.learn <- data_sample[-v

2014-04-09 01:58:07 14566 1

原创使用R完成Kmeans聚类

使用R完成Kmeans聚类需要调用kmeans方法，使用数据集iris完成一个小的聚类实验，代码如下：newiris <- iris;newiris$Species <- NULL; #对训练数据去掉分类标记kc <- kmeans(newiris, 3); #分类模型训练fitted(kc); #查看具体分类情况table(iris$Species, kc$cluster);

2014-04-07 18:42:12 65088

原创使用R完成K近邻分类

使用数据集iris，验证Petal.Length, Petal.Width两个特征的分类能力。代码如下：with(iris, plot(Petal.Length, Petal.Width, col=as.integer(Species)))text(2.2, 0.3, "setosa")text(3.0, 1.3, "versicolor")text(6.5, 1.7, "virgin

2014-04-06 20:50:23 7309 1

原创使用R完成朴素贝叶斯分类

想和数据挖掘沾点边，所以最近在复习一些算法，因为又学了点R，深感这是个统计分析挖掘的利器，所以想用R实现一些挖掘算法。朴素贝叶斯法大概是最简单的一种挖掘算法了，《统计学习方法》在第四章做了很详细的叙述，无非是对于输入特征x，利用通过学习得到的模型计算后验概率分布，将后验概率最大的分类作为输出。根据贝叶斯定理，后验概率P(Y=cx | X=x) = 条件概率P(X=x | Y=cx) *

2014-04-06 17:11:42 14287

原创使用R完成决策树分类

关于决策树理论方面的介绍，李航的《统计机器学习》第五章有很好的讲解。传统的ID3和C4.5一般用于分类问题，其中ID3使用信息增益进行特征选择，即递归的选择分类能力最强的特征对数据进行分割，C4.5唯一不同的是使用信息增益比进行特征选择。特征A对训练数据D的信息增益g(D, A) = 集合D的经验熵H(D) - 特征A给定情况下D的经验条件熵H(D|A)特征A对训练数据D的信息增益比r

2014-04-06 16:14:50 49068

原创 linux系统安装R\RHive

安装R1 下载R安装包wget http://ftp.ctex.org/mirrors/CRAN/src/base/R-2/R-2.15.0.tar.gz .2 安装R./configure --with-readline=yes --with-x=yes --enable-R-shlib --prefix /home/work/R（--prefix是关键，R是自建文件夹）

2014-03-19 22:51:14 4893

原创使用R进行多元时序指标趋势可视化

数据时代，经常需要将多种时序数据指标放在一起进行分析，但各个数据指标量级不一致，不方便放在一张趋势图中进行分析，解决方法是把各个指标数据归一化，对于时序数据[x1, x2...xn]，可以使用归一化规则为xn = xn*100/avg(x)。之前在某社交网络公司，对于feed流，需要对pv, click, reply, share, like等指标进行趋势分析，使用的解决方案是使用py

2014-03-15 21:49:40 5769

原创 Processing初探-基本用法、简单动画

读《数据可视化之美》时看到编程语言Processing这么个东西，于是下载过来简单使用了下。下载地址：http://processing.org/download/ 。免费的，屌丝可以选择不捐钱下载，绿色软件，下载完后直接解压即可使用。下面是一个的时钟动画的例子，代码如下：//setup 函数用于初始化，由 Processing 运行时执行一次。void setup()

2013-10-29 19:40:58 20254

原创使用R进行数据可视化套路之-多重散点图、连接Mysql获取数据

代码library(RODBC)channel <- odbcConnect('db_name', uid='user_name', pwd='user_password') #连接数据源s_d <- sqlQuery(channel, "SELECT t, s, d FROM table_1) #获取数据length <- dim(s_d)[1] #数据组个数plot(c

2013-10-27 17:53:11 3138

原创使用R进行数据可视化套路之-条形图、Cleveland点图、矩阵

代码gdp=matrix(c(450, 500, 700, 800, 1500, 1600), nrow=2, byrow=T) #构造数据矩阵rownames(gdp) = c('China', 'USA') #矩阵行命名colnames(gdp) = c('2002', '2004', '2006') #矩阵列命名par(fig=c(0, 0.5, 0.4, 1))barpl

2013-10-27 17:01:30 6123

原创使用R进行数据可视化套路之-散点图、图形分隔、时间序列

代码## Panel Apar(fig=c(0, 1, .45, 1)) #图像设备分割plot(log10(measles), xlab="时间", ylab=" Deaths; Population (log scale)", ylim=log10 (c(1,5000*1000)), yaxt="n")ytiks <- c(1, 10, 100, 1000, 1000000,

2013-10-27 16:08:33 7026 1

原创使用R进行数据可视化套路之-茎叶图、盒形图

代码#茎叶图library(DAAG)with(ais, stem(ht[sport=="Row"])) #图1#盒形图with(fossum, boxplot(totlngth, main="使用boxplot函数绘制垂直盒形图", ylab="总长度", xlab="")) #图2with(fossum, boxplot(totlngth, main="使用boxplot

2013-10-27 15:26:33 8674

原创使用R进行数据可视化套路之-直方图

示例代码library(DAAG)attach(fossum)par(mfrow = c(1,3))hist(totlngth, breaks = 72.5 + (0:5) * 5, ylim = c(0, 22), xlab="Total length (cm)", main ="A: Breaks at 72.5, 77.5, ...")dens <- density(tot

2013-10-27 14:28:43 7429

转载 Awk排序函数asort和asorti的使用区别

转自http://blog.chinaunix.net/uid-21374062-id-3189744.html两者排序区别：asort 是对数组的值进行排序，并且会丢掉原先键值；asorti是对数组的键值进行排序，生成关联数组。注：跟c++, python等语言不同，awk中的关联数组并不按照键值进行排序，其仅仅只是保存的映射关系。数据文件：12

2013-10-23 11:19:17 3700

Expect的作者Don Libes在1990年开始编写Expect时对Expect做有如下定义：Expect是一个用来实现自动交互功能的软件套件(Expect [is a] software suite for automating interactive tools)。使用它系统管理员的可以创建脚本用来实现对命令或程序提供输入，而这些命令和程序是期望从终端（terminal）得到输入，一般来说

2013-09-27 14:50:22 5272

原创 BeautifulSoup学习笔记

学习自http://rsj217.diandian.com/post/2012-11-01/40041235132#/usr/bin/env python

2013-09-18 00:15:24 5195

转载 grep多个关键字“与”和“或”

1、或操作 grep -E '123|abc' filename // 找出文件（filename）中包含123或者包含abc的行 egrep '123|abc' filename // 用egrep同样可以实现 awk '/123|abc/' filename // awk 的实现方式 2、与操作 grep pattern1 files| grep pa

2013-01-22 21:07:16 42978 2

转载 vim基本命令

转自http://linux.chinaunix.net/techdoc/beginner/2009/12/20/1150108.shtml1.vim#在命令行中输入vim,进入vim编辑器2.i#按一下i键,下端显示 --INSERT--#插入命令,在vim中可能任意字符都有作用3.Esc#退出i(插入)命令进行其它命令使用4.:r filen

2013-01-22 21:05:45 6080

转载 linux awk 内置变量实例

转自http://blog.csdn.net/sunboy_2050/article/details/8477842awk 是一门非常优秀的文本处理工具，甚至可以上升作为一门程序设计语言。它处理文本的速度是快得惊人的，现在很多基于shell 日志分析工具都可以用它完成。特点是设计简单，速度表现很好，本文将介绍awk内置变量。格式： awk [ -F re] [param

2013-01-13 16:21:52 813

转载 Python itertools用法

转自http://www.cnblogs.com/cython/articles/2169009.htmlitertools模块包含创建有效迭代器的函数，可以用各种方式对数据进行循环操作，此模块中的所有函数返回的迭代器都可以与for循环语句以及其他包含迭代器（如生成器和生成器表达式）的函数联合使用。chain(iter1, iter2, ..., iterN)：给出一组迭代器(it

2013-01-09 20:50:54 1362

转载 Python lambda介绍

转自http://www.cnpythoner.com/post/97.htmlpython lambda是在python中使用lambda来创建匿名函数，而用def创建的方法是有名称的，除了从表面上的方法名不一样外，python lambda还有哪些和def不一样呢？1 python lambda会创建一个函数对象，但不会把这个函数对象赋给一个标识符，而def则会把函数对象赋值给

2013-01-08 21:36:48 841

转载 Python cPickle模块用法

转自http://blog.csdn.net/bh20077/article/details/6070278持久性就是指保持对象，甚至在多次执行同一程序之间也保持对象。通过本文，您会对 Python对象的各种持久性机制（从关系数据库到 Python 的 pickle以及其它机制）有一个总体认识。另外，还会让您更深一步地了解Python 的对象序列化能力。什么是持久性？持

2013-01-07 21:34:14 25142 2

转载 Python图表软件包ChartDirector的安装和使用

转载自http://zj.he.blog.163.com/blog/static/1068286472010925104915276/Python平台好的图表软件不多，ChartDirector是其中较好的一个，功能丰富，使用简单，特在此分享一下安装和使用经验。使用环境：SUSE Enterprise Server 11Python2.6一、安装1、从http:

2013-01-07 16:40:38 6314 1

转载 Python的format方法用法

转自http://blog.csdn.net/xiaofeng_yan/article/details/6648493在Python 3.0中，%操作符通过一个更强的格式化方法format()进行了增强。对str.format()的支持已经被反向移植到了Python 2.6在2.6中，8-bit字符串和Unicode字符串都有一个format()方法，这个方法会把字符串当作

2013-01-06 20:41:07 23607

转载 join命令用法

转自http://www.cnblogs.com/agilework/archive/2012/04/18/2454877.html功能说明：将两个文件中，指定栏位内容相同的行连接起来。（文件必须按照特定栏位排序）语　　法：join [-i][-a][-e][-o] [-t][-v][-1][-2][--help] [--version][文件1][文件2] 补充

2013-01-04 21:11:22 871

转载背包问题

摘自维基百科http://zh.wikipedia.org/wiki/%E8%83%8C%E5%8C%85%E9%97%AE%E9%A2%98背包问题(Knapsack problem)是一种组合优化的NP完全问题。问题可以描述为：给定一组物品，每种物品都有自己的重量和价格，在限定的总重量内，我们如何选择，才能使得物品的总价格最高。问题的名称来源于如何选择最合适的物品放置于给定背包中。

2013-01-02 17:24:49 1705

转载八皇后问题（回溯法）代码

转自http://blog.csdn.net/xie376450483/article/details/6159037#includeusing namespace std;#define N 8//N代表皇后数void queen(){ int Count=0; //计算总共的解的数量 int column[N+1]; //column[m]=n表示第m行

2013-01-02 00:22:39 699

转载 linux中atime mtime ctime

当你同熟练的UNIX用户进行交谈时，你经常会听到他们傲慢地讲出术语“改变时间(change time)”和“修改时间(modification time)”。对于许多人(和许多字典而言),改变和修改是相同的。这里会有什么不同那？改变和修改之间的区别在于是改某个组件的标签还是更改它的内容。如果有人说chmod a-w myfile,那么这是一个改变；如果有人说echo f

2012-12-31 17:42:28 608

转载 dirs\pushd\popd命令用法

Bourne Again和TC Shell都允许用户将其正在使用的目录列表存放起来，这样就可以在这些目录之间轻易移动。这个目录列表称为栈。它模拟了餐厅所用的盘子：一般将盘子放到栈的顶部或者从栈的顶部取盘子，这就创建了一个先入后出(FILO)的栈。1. dirs：显示栈内置命令dirs显示目录栈的内容。如果当目录栈是空的时候调用dirs，它将显示工作目录的名字。

2012-12-31 16:52:32 1990

转载 xargs命令用法

大多数 Linux 命令都会产生输出：文件列表、字符串列表等。但如果要使用其他某个命令并将前一个命令的输出作为参数该怎么办？例如，file 命令显示文件类型（可执行文件、ascii 文本等）；您可以处理输出，使其仅显示文件名，现在您希望将这些名称传递给 ls -l 命令以查看时间戳记。xargs 命令就是用来完成此项工作的。它允许您对输出执行其他某些命令。xargs – build and

2012-12-30 22:54:37 2509

转载 paste命令用法

cut用来从文本文件或标准输出中抽取数据列或者域，然后再用paste可以将这些数据粘贴起来形成相关文件。粘贴两个不同来源的数据时，首先需将其分类，并确保两个文件行数相同。paste将按行将不同文件行信息放在一行。缺省情况下， paste连接时，用空格或tab键分隔新行中不同文本，除非指定-d选项，它将成为域分隔符。 paste格式为: paste -d

2012-12-30 22:27:23 1492

转载 od命令用法

Linux指令：od示例用法：od -c helloLinux指令：odod命令用户通常使用od命令查看特殊格式的文件内容。通过指定该命令的不同选项可以以十进制、八进制、十六进制和ASCII码来显示文件。语法：od ［选项］文件…命令中各选项的含义：- A 指定地址基数，包括：d 十进制o 八进制（系统默认值）x 十六进制n 不打印位移

2012-12-30 22:03:51 10456 1

转载 split命令用法

Linux下文件分割可以通过split命令来实现，而用cat进行文件合并。而分割可以指定按行数分割和安大小分割两种模式。Linux下文件合并可以通过cat命令来实现，非常简单。在Linux下用split进行文件分割：模式一：指定分割后文件行数对与txt文本文件，可以通过指定分割后文件的行数来进行文件分割。命令：split -l 300 large_file.tx

2012-12-30 21:04:11 1534

转载 tee命令用法

本文链接：http://codingstandards.iteye.com/blog/833695 用途说明在执行Linux命令时，我们可以把输出重定向到文件中，比如 ls >a.txt，这时我们就不能看到输出了，如果我们既想把输出保存到文件中，又想在屏幕上看到输出内容，就可以使用tee命令了。tee命令读取标准输入，把这些内容同时输出到标准输出和（多个）文件中（read

2012-12-30 20:42:43 21882

原创 which、whereis、locate、find 命令用法

大部分转自http://312788172.iteye.com/blog/730280，有修改我们经常在linux要查找某个文件，但不知道放在哪里了，可以使用下面的一些命令来搜索。这些是从网上找到的资料，因为有时很长时间不会用到，当要用的时候经常弄混了，所以放到这里方便使用。 which 在PATH变量指定的路径中，搜索某个系统命令的位置，并且返回第一个搜索结果。wh

2012-12-29 20:28:56 15485 1

c++笔试面试宝典2010版

空空如也