zxy_clover-CSDN博客

原创数据分析笔试题目（一）

一、单选题1.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2.以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。A. Precision, ...

2019-03-07 14:14:49 73048 3

原创单一样本Wilcoxon符号秩检验

数据要求：单峰对称分布，数据在其两边分布的疏密情况是对称的很过不对称的单峰数据分布可能通过变换化为对称分布。多峰分布通过混合分布整体表示后，每一个分布也可以用单峰对称的分布表示。就对称分布而言，对称中心只有一个，中位数却可能有很多个。例子： -0.27 -0.03 -0.56 -0.14 -0.15 30 80 100对数据来说，0是这组数据的中位数

2018-04-19 21:08:28 15526 4

关联规则是无监督学习，是用于知识发现，而并非预测。支持度：数据库D中事务同时包含X、Y的百分比置信度：数据库D中事务包含X的情况下，包含Y的百分百注：若满足最小支持度阈值和最小置信度玉坠，则认为关联规则是有趣的。但此阈值是根据挖掘需要认为设定的。过程（两阶段）：一阶段：必须先从资料集合中找出所有的高频项目组（支持度）二阶段：由这些高频项目组中产生关联规则（置信度）注：关联规则挖掘通常比较适合与记...

2018-04-19 20:16:13 2410

原创随机游程检验

在实际中，我们经常考虑一个序列中的数据出现是否与顺序无关，这关系到数据是否独立。一个典型的序列是二元0/1序列出现的随机性问题。在一个二元序列中，0和1交替出现。首先引入概念：在一个二元序列中，一个由0或1连续构成的串成为一个游程，一个游程中数据的个数成为游程的长度。一个序列中游程个数用R表示，R表示0和1交替轮换的频繁程度。例子： 10000111011000011110解析：总共有20个数，0...

2018-04-16 21:48:05 10659 1

原创 R语言 Cox-Stuart趋势检验

在客观世界中会遇到各种各样随时间变动的数据序列，我们关心这些数据随时间变化的规律（增长或者下降的趋势）。例如GDP是否逐年增长，某种疾病的患者是否在不断减少，这时我们就要对该序列进行趋势检验。假设数据序列x1,x2,x3,……,xn独立，我们以某一常数c为界把该序列分成两部分，并将这两部分两两配对成(x1,xc+1),(x2,xc+2),……(xc,xn)的形式，其中当n为偶数时，c=n/2；当n...

2018-04-16 21:13:25 10997 1

原创 R语言时间序列之ARIMA模型

自回归移动平均模型（arima）ARMA模型是对不含季节变动的平稳序列进行建模。ARIMA模型的本质和ARMA是一样的，只是ARIMA针对不平稳的序列进行建模的，将ARMA模型里的序列值进行差分就可以。定阶以及参数说明acf值pcf值模型拖尾（逐渐为0）p阶截尾ARIMA(p,d,0)q阶截尾拖尾ARIMA(0,d,q)拖尾拖尾ARIMA(p,d,q)以尼罗河数据为例子 plot(Nile) ...

2018-03-29 22:25:10 27374 4

原创 R语言时间序列（一）

定义：是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。序列容易受到长期趋势、季节变动、循环变动、不规则变动等因素的影响。1. 预处理1.1 平稳性检验1）时序图时序图就是一个二维平面，通常横轴表示时间，纵轴表示序列取值平稳特征：无明显趋势和以及周期性下图有下降的趋势，则该序列是不平稳的

2018-03-29 19:49:02 7355

原创 R语言朴素贝叶斯

朴素贝叶斯是一种十分简单的分类算法，是一种基于概率的分类器，它源于贝叶斯理论，假设样本属性之间相互独立。思路：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，那个最大，就认为此待分类项属于那个类别。三个阶段：1）准备阶段主要工作是根据具体情况确定特征属性，并适当划分每个特征属性，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数

2018-03-26 23:19:01 2295

原创 r语言集成学习

集成学习通过构造并结合多个学习器来完成学习任务原理：先产生一组“个体学习器”，在用某种策略将它们结合起来boosting：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本进行调整，使得先前基学习器做错的样本在后续受到更多关注，然后基于调整后的样本分布训练下一个基学习器；如此重复下去，直至基学习器数目达到事先指定的值T，最终将这T个学习期进行加权结合。bagging：是投票式算法，...

2018-03-26 22:07:08 1600

原创 R语言支持向量机

支持向量机可以想象成一个平面，改平面定义了个数据点之间的界限，而这些数据点代表它们的特征绘制多维空间中的样本。支持向量机的目标是创建一个称为超平面的平面边界，它使得任何一个的数据划分都是相当均匀的。支持向量机几乎可以适用于所有的学习任务，包括分类（svm）、数值预测、回归（svr）。R实现及参数说明1）kernlab包函数ksvm()通过。Call接口，使用bsvm和libsvm库中

2018-03-26 19:52:17 4299

原创 R语言 BP神经网络

神经网络是由具有适应性的简单单元组成的广泛进行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。人工神经网络对一组输入信号和一组输出信号之间的关系建模，使用的模型来源于人类大脑对来自感觉输入的刺激是如何反应理解的。就像大脑使用一个称为神经元的相互连接的细胞网络来创建一个巨大的并行处理器，人工神经网络使用人工神经元或者节点的网络来解决学习问题。人工神经网络可以用在数据的分类、

2018-03-24 21:15:53 14693

原创 R语言决策树及其实现

一颗决策树包含一个根结点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到叶结点的路径对应于了一个判定测试序列。目的：为了产生一颗泛化能力强，即处理未见示例能力强的据决策树。特别注意几点：1）通常所说的属性是离散，若属性是连续，则要把属性离散化，最简单的是是采用二分法（找划...

2018-03-22 20:59:37 10781 10

原创 R语言密度聚类

动态聚类往往聚出来的类有点圆形或者椭圆形。基于密度扫描的算法能够解决这个问题。思路就是定一个距离半径，定最少有多少个点，然后把可以到达的点都连起来，判定为同类。在r中的实现 library(fpc) newiris <- iris[, 1:4] ds <- dbscan(newiris, eps = 0.5, MinPts = 5, scale = T,

2018-03-20 21:59:56 771

原创 R语言层次聚类（系统聚类）

层次聚类试图在不同层次对数据集进行划分 library(NbClust) data(nutrient, package = 'flexclust') row.names(nutrient) <- tolower(row.names(nutrient)) nutrient.scale <- scale(nutrient) d <- dist(nutrient.scale)

2018-03-20 21:25:37 4790

原创 R语言 kmeans聚类

原理：将数据集中的样本划分为若干个通常是不想交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇对英语一些潜在的概念（类别）1. 基本问题1）性能度量对聚类结果评价好坏：簇内相似度高，簇间相似度低2）距离计算2. kmeans 聚类1）找最优的K值# cluster.stats函数需要使用fpc库 library(fpc); library(ggplot2) K <- ...

2018-03-20 20:26:43 2559

原创 R语言模型评估与选择

1、经验误差如果在m个样本中有a个样本分类错误，则错误率为E=a/m，对应地精确度为1-a/m。实际预测输出与样本的真实值之间的差异成为“误差”。学习器在训练集在的误差成为“经验误差”。在新样本上的误差称为“泛化误差”。显然，泛化误差小的学习器是我们希望得到的。2、评估方法测试集是用来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似。2.1 训练样本和测试样本划分1...

2018-03-13 23:00:53 6235

原创 R语言 k近邻法

k近邻法是机器学习方法最简单的方法之一基本思路：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于一个类别，则该样本也属于这个样本。在k近邻法算法中，所选择的邻居都是已经正确分类来决定待分样本所属的类别。k临近算法主要依靠周围有限的邻近样本，属于样本中概率大的样本。r语言中k近邻法算法的实现1、class包 knn( )2、kknn包中的k

2018-03-12 22:28:10 3670

原创镜像

今天加载一个新包，出现下面问题，改镜像也没有用Warning message:In download.file(mirrors_csv_url, destfile = mirrors_csv, quiet = TRUE) : InternetOpenUrl failed: ''百度之后说是IE浏览器的问题。具体解决方法参考如下链接：http://blog.sina.com.cn/

2017-11-30 19:43:41 1563

原创 R语言正则表达式 stringr包

stringr包函数处理文本是游刃有余的一、元字符在正则表达式中，有12个字符有特殊用途字符含义[ ]括号内的任意字符串\有两个含义：1、对元字符串进行转义 2、一些以 \ 开头的特殊序列表达了一些字符串组^匹配字符串的开始，将^置于character clas

2017-10-22 20:04:41 2304

原创统计报表

指标统计量的输出：均值、方差、标准差、偏度、峰度等位置：分析--->报告一、在线分析处理报告器（OLAP）该过程对于按一个或多个分组变量所分的组，计算所考察的连续变量的总值、均值并且以分层的方式输出，每一层是根据一个分组变量的结果输出。特别地：这里的分组变量在实际的过程中并不起到分组作用二、个案摘要报告（分组每类数据量大，不建议用这种方法）用于指定分组统

2017-10-22 12:20:01 314

原创 R语言 devtools

今天安装r语言devtools包，尝试很多种方法也不能决解，下面这个问题是改变镜像，然后就会可以安装了（3.4.2版本）

2017-10-21 19:03:59 14370

原创一页多图

经常需要根据的需求把多张图放在一页，这是facet_wrap和facet_grid并不管用，基本函数mpar在ggplot函数中并不能实现。以下函数可以将多个图组合在一页# 第一种multiplot<-function(..., plotlist=NULL, file, cols=1, layout=NULL){ library(grid) # Make a list fro

2017-10-21 16:11:03 359

原创 R语言分面

facet_wrap（封装）和facet_grid（网格）在一页上可以放多个图网格型：生成是一个2维的面板网格，面板的行与列通过变量定义1、一行多列‘.~a’(比较适合数据的展示)ggplot(data = mpg, aes(x = cty, y = hwy)) + geom_point() + facet_grid(. ~ cyl)2、一列多行‘b~.’

2017-10-21 15:48:21 2144

原创 r语言代码风格

一下的代码风格是基于Google的 R 用户群体协同设计而成文件命名：以 .R 结尾（一般保存时会自动设定）单行长度：一般不超过 80 个字符串（不要超过编辑窗口）缩进：两个空格，不使用制表符（永远不要使用制表符或混合使用二者）花括号：前括号不折行，后括号单独一行赋值符号：使用分号：不要使用注释：所有注释以 # 开始，后接一个空格；行内注释需要在 # 前

2017-10-18 21:59:43 483

原创 R语言 t.test()

t.test(x, y = NULL, alternative = c("two.sided", "less","greater"), mu= 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...)参数意思用法x

2017-10-15 11:19:55 34923

原创 r语言偏度峰度

偏度：偏度用于衡量x的对称性。若偏度为负，则x均值左侧的离散度比右侧强；若偏度为正，则x均值左侧的离散度比右侧弱；对于正态分布(或严格对称分布)偏度等于0峰度：峰度用于度量x偏离某分布的情况，正态分布的峰度为3。当时间序列的曲线峰值比正态分布的高时，峰度大于3；当比正态分布的低时，峰度小于3在...

2017-10-14 13:45:42 38222 1

原创文章标题

今天弄了一个商家分成，下面说说我的理解~~~ 商家分成可以借用用户分层最经典模型——RFM模型，即收益（M）、最近一次收益时间（R）、收益频数（F）。可以根据自己模型可以再加上其他指标，这样模型就完整了。说白了商家分层就是要找到一个金字塔和有可能成为金塔的潜在可能。一家公司的收益主要是金字塔20%的商家占80%收益，可想而知这其中的利害关系。还有就是根据这个金字塔找到相对应商家类型，然后进

2017-07-16 00:01:12 194

zxy_clover的博客